打开网易新闻 查看精彩图片

语音转文字的痛点从来不是"听不见",而是"听懂了但写得太丑"。你对着手机说三句话,出来三行"嗯……那个……我觉得……",改起来比手写还累。Google周一上架的AI Edge Eloquent,直接把这个场景按在地上摩擦——离线跑、自动润色、零订阅费。

这事的魔幻之处在于:它把两个互相矛盾的需求同时满足了。既要隐私(数据不出设备),又要智能(AI帮你改稿)。通常厂商的做法是二选一,Google这次头铁,全都要。

3秒出稿:从"人话"到"人话"的翻译器

3秒出稿:从"人话"到"人话"的翻译器

打开应用,点录音,说话,停。剩下的交给Gemma模型。

App Store的描述很直白:你嘴里的"um""uh"、说到一半自我纠正的磕巴,都会被自动抹掉。最终呈现的是干净文本,你可以再手动微调。这个流程听起来简单,但拆解一下技术栈就知道多刁钻——语音识别、语义理解、文本生成,三层模型全得塞进手机本地。

Google用的是Gemma系列轻量模型,这是它去年开源的小参数模型家族,专门给边缘设备(手机、平板、IoT)设计的。别被"轻量"骗了,Gemma 2B在多项基准测试里能打平早期7B规模的竞品。换句话说,Google把云端大模型的能力蒸馏到了一个能在iPhone上离线跑的体积。

界面极简:底部四个图标——录音、历史、词典、设置。没有花里胡哨的模板,没有"AI助手"式的聊天窗口。产品经理显然想清楚了:用户打开这个应用,目标只有一个——把嘴里的声音变成能用的文字,越快越好。

词典系统:越用越懂你的"黑话库"

词典系统:越用越懂你的"黑话库"

语音转文字的祖传难题是人名、专业术语、内部黑话。系统听到"Zhang Yiming"可能写成"张一鸣"也可能写成"章一明",听到"OKR"可能识别成"哦可儿"。

AI Edge Eloquent的解法分两层。基础层是自动学习:你手动改过的拼写错误,会被收进词典。比如你叫"岑岑",系统第一次识别成"涔涔",你改过来,下次就对了。

打开网易新闻 查看精彩图片

进阶层需要连接Google账户——它会扫你的Gmail,提取你邮件里反复出现的专有名词,构建个人词库。这个设计很Google:用既有数据资产换体验,但把选择权交给用户。不登录也能用,登录了更好用。

还有个隐藏选项:连上云端后,可以用Gemini做更深度的文本润色。离线版Gemma负责"去噪音",在线版Gemini负责"上价值"。需要写正式邮件的时候,这个切换就有用了。

免费策略:Google在图什么?

免费策略:Google在图什么?

应用不收订阅费,甚至没有广告位。这在当下的AI工具市场堪称异类——同类产品要么按分钟计费,要么设每月免费额度,逼你掏钱。

Google的算盘可能在别处。首先,这是Gemma模型的绝佳广告:开发者看到离线效果,可能更愿意把Gemma塞进自己的硬件产品。其次,词典系统需要Google账户,这是生态锁定的老套路。最后,语音数据是训练多模态模型的燃料,虽然官方强调"离线=隐私",但用户主动上传云端润色的那段文本,Google是能吃到的。

一个细节:应用目前只有iOS版,但Store页面明确写了"seamless Android integration coming"。这个顺序很反常——Google通常优先安卓。可能的解释是:iOS用户付费意愿强、对隐私敏感,是验证"离线AI"商业模式的最佳试验田。跑通了再往安卓搬。

竞品不是没试过类似路线。Otter.ai主打会议转录,但依赖云端;Whisper(OpenAI开源)可以离线,但需要你懂命令行;苹果自己的听写功能离线可用,但不去"嗯啊"、不润色。AI Edge Eloquent卡在一个微妙的空档:比苹果聪明,比Otter私密,比Whisper好用。

不过限制也很明显。它是纯语音输入工具,没有实时协作、没有多语言混合识别、没有 speaker diarization(区分多人说话)。如果你要录一场三小时的播客访谈,还得找专业工具。

Google代表尚未回应置评请求。但产品本身已经说了很多——当大厂开始把"离线AI"当卖点而不是妥协,可能意味着端侧算力真的到了临界点。你的下一款AI应用,未必需要联网。

最后一个问题留给你:如果手机里的AI足够好用,你还会为云端服务每月掏20美元吗?