“⼈均”千万美元ARR，AI催⽣的花式语⾔学习App个个能打？

2026-02-23

但这些产品的流水成绩，反而体现出，越小众、越刚需，而这种小众其实也仅是相对于学习一门语言这种大众需求而言，事实上，有共同痛点（如发音不准、针对于特定场景词汇匮乏）的人群规模往往不小。

编者按：本文来自微信公众号白鲸出海（ID：baijingapp），作者：白鲸出海编辑部，编辑：殷观晓，创业邦经授权转载。

回顾 2025 年我们⼀直在追踪的几个类别，语言学习是很有意思的⼀个分类，产品找到了最多的差异化定位，远不止 Speak 独美。

相较于 Speak 让用户张口、Duolingo 用游戏化让背单词不再那么反人性，今天盘点的我们在 2025 年至今发现的 AI 语言学习产品不针对于泛用户，而是针对于移民、LEP 人群、跨性别群体。但这些产品的流水成绩，反而体现出，越小众、越刚需，而这种小众其实也仅是相对于学习一门语言这种大众需求而言，事实上，有共同痛点（如发音不准、针对于特定场景词汇匮乏）的人群规模往往不小。

通过解决“口音影响面试”、“看病时词穷”、“声音不自信”这些具体问题，这些新冒出来的 AI 语言 App 几乎“人均千万美元 ARR”。

一、从“中式英语”到“职场自信”：BoldVoice的口音生意

目标人群：美国大几千万的移民，以及留学生、国际职场人士

在硅谷，有个段子：印度工程师升职比中国工程师快，不是技术更强，是开会时“敢说”，即便他们的口语也一股“咖喱味”。虽然其中有不同民族的性格差异，但本质问题依然是非英语母语者的焦虑学了10年英语，语法词汇没问题，但一开口就是有点怯。

由同样为移身份、有相同困扰的 Anada Lakra（CEO）& llya Usorov（CTO）创立的 BoldVoice，抓住的就是这个痛点，定位“口腔健身房”，专注口音矫正。

AI 怎么做的？

BoldVoice 结合了真人演示和 AI 纠音两大教学模式。

用户先录制自己的语音，借助 AI 评分找出改进之处；

再观看好莱坞口音教练的视频演示，观察、模仿地道

的发音方法。除了设计了专门的发音课程之外，在自由

对话版块，会将对话目标精确设定到使用特定单词等。

BoldVoice 采用了真人+AI、课程+自由对话的组合，并且将所有目标收敛到“发音矫正”，抛弃了任何与词汇量和语法相关的训练。这样的专注设计，借助于引发病毒式传播的 TikTok 英语口音测试，帮助 BoldVoice 从之前的 ARR 百万美元快速进步为月入百万美元。

BoldVoice高峰期收入|图片来源：SensorTower

不过，2025 年年底，其月流水已经回落到 33 万美元（SensorTower 数据）。但即便如此，BoldVoice 还是凭借 2025 年年初的爆发式增长，吸引了资本关注。在 2026 年 1 月，宣布完成了 2100 万美元 A 轮融资，1000 万美元 ARR、500 万用户的数据。

值得创业者关注的是，BoldVoice，可以服务的可能不止美国几千万的 non-native speaker，全球总计有 15 亿 english speaker（甚至未来可能会增长值 20 亿），但其中 70-75% 的人的母语都不是英语，也就是超过 10 亿。显然，这其中蕴藏了巨大的口音纠正需求（来源：全球语言数据库Ethnologue 数据）。

2026 年年初，BoldVoice 团队官宣融资

各种语言的母语和非母语 speaker 数据

二、不教日常对话，只练"关键时刻"：Learna 的场景化突围

目标人群：美国 2890 万 LEP 人群（Limited English Proficiency，英语能力受限者）

如果说，BoldVoice 的人群是美国移民群体，其实 Learna 的底色也一样。但虽然大盘一样，但是他们针对的依然是不同的细分人群、不同的需求。BoldVoice 做的是口音矫正、锚定人群会说但不敢说，而 Learna 针对的问题更基础，不是羞于开口，而是因为不知道说什么、开不了口。

这个产品的用户画像是移民人群中接近 3000 万的 LEP 人群。他们能用英语点餐、问路，但一到看病、面试、租房这些复杂一些的场景就卡壳。

对应，Learna 所提供服务为“应急式学习”。它把学习场景拆成 13 个主题:医院、法庭、银行、面试......每个场景都有 AI 扮演的角色前台、医生、面试官，和用户实时对话。

Learna 里面的角色扮演标签页

AI 怎么做的？

通过交流-纠错-改进的快速迭代循环，快速提升用户应对某一场景的口语能力。以场景即课程、AI对话即学习的产品设计理念，迎合用户无压力实现快速学习成果的期望。

用户不是为了“学英语”付费，而是为了“下周面试能顺利”付费。对应的，6.99 美元的周订阅作为收入主导，匹配“应急学习”的短期需求。

需求很刚、但也很短暂，Learna 也因此拿下了 260 万美元月流水、美国教育畅销榜第 2 的好成绩，但周订阅主导的结构导致其不断需要获取新用户，弊端为较高的获客成本。

三、从 999 美元到 19.9 美元的声音革命：VocalImage

目标人群：职场人士、跨性别群体、声音自卑者

这款产品，同样是一款针对于口语的产品，但是它不像 Learna 教你在某些场景下该说什么，也不是 Boldvoice 改善你不地道的口音，教的是“通过发音方式和沟通技巧的练习，让用户说话更好听、更动听”，属于更进阶的需求。

在传统模式下，这种进阶需求的目标人群是演员、歌手、政客、企业高管这样的独特人群，而服务于这类需求的则是传统的声音教练，提供服务标价 999-2999 美元的课程。

但事实是，表达不清、说话不够动人好听，这类需求从来不仅限于上述人群，更多的普通人也有此类困扰，YouTube 上声音教练博主动辄千万级、百万级的粉丝量即是证明。但因为供给价格高昂，导致这类需求一直被压抑。

从白俄罗斯移到爱沙尼亚、有着同样困扰的创始人 Nick Lahoika，利用 AI 让这件事变得平化，做出了 Vocal Image，将可获得服务的人群拓展至大众人群，还从中挖掘出了跨性别群体的需求，服务于特定人群的自我认同与表达。

产品设计与 AI 的融入

VocalImage 每日训练页面

借助于声音与魅力/性别的关联，以及“测试声音类型”的趣味测试，Vocal Image 获取用户并以 19.99 美元/月的“平替方案”实现 1200 万美元的 ARR。

四、专业人士的“词汇健身房”：Vocabulary 的精准狙击

目标人群：GRE、GMAT 备考生，专业领域学习者

不同于以上 3 个产品，针对于开口难的问题，Vocabulary 回归了英语词汇的学习。当然，面对这个“古早需求”，Vocabulary 这个后来者也刁钻地找到了自己的受众。

GRE 词汇有多难？即使英语母语者，掌握率也只有 15-20%。Vocabulary 的目标受众除了这类考试的考生，还有在美国社会高度依赖于“表达”的大背景下对某一个领域的高阶词汇有学习和表达需求的专业人士。

Vocabulary 没有走“背单词游戏化”的老路，而是针对于这类人群做了三件事:

1、提供丰富的主题选择：由用户自主选择想要学习哪一领域的单词；

2、推荐系统优化扩展单词表：同时根据用户的选择、想学习单词的收藏和点赞等行为，进行推荐系统的优化，扩展单词列表供用户进一步选择；

3、克制的产品设计：针对于高阶用户的高自觉特性，交出选择权的同时，也保持克制的 callback、游戏化设计。

而在上述核心设计的同时，采用沉浸式的学习模式，页面简单（重构词典页面）+宁静背景图，用户以类似于刷短视频的方式上下滑动学习单词。

增长上，团队直接以“单词页面+好看的背景+舒缓音乐”作为素材展示给用户，并在配文当中突出“Everyday”和“Expend Vocabulary”，整体透露出每天惬意中实现提升、宁静以致远的感觉，实现高展示量（展示 20w+）。简单直接吸引目标受众实现高转化，在今年 1 月，登上美国总榜，同时在教育分类收入榜单的日榜上最高爬至第 2 位，仅次于多邻国，日流水高位 10 万美元，实现用户与收入双收。