3月26日,谷歌翻译的「实时翻译」功能正式登陆iOS。安卓用户2019年就能用的功能,苹果阵营终于能体验了——而且这次谷歌一次性把覆盖国家从4个扩到11个,新增法国、德国、意大利、日本、西班牙、泰国和英国。
这功能用起来像给耳朵配了个同声传译员。打开翻译App,点「实时翻译」,连上耳机,对方说话你直接听到中文,你回话对方听到他的语言。全程不用把手机递来递去,也不用盯着屏幕看字幕。
谷歌官方列了几个场景:餐厅点餐、问路、购物砍价。但产品经理出身的我,更在意的是技术路径——这功能依赖的是谷歌的语音合成+神经机器翻译(NMT,Neural Machine Translation)双引擎,延迟控制在2-3秒,接近人类同传的响应速度。
为什么安卓早3年?
2019年谷歌在Pixel Buds上首发实时翻译时,iOS版本只有拍照翻译和文字输入。背后的技术限制很现实:安卓系统允许App常驻后台获取麦克风权限,iOS的隐私沙盒机制让实时音频流处理变得复杂。
谷歌的解法是把部分计算搬到云端,同时利用iOS 15之后开放的Live Activities接口——也就是你现在锁屏也能看到外卖进度的那个功能。换句话说,谷歌用系统级通知的权限「借道」实现了后台音频处理。
这次同步扩张的还有语言覆盖。70+语言里,中英互译、中日互译的准确率最高,小语种比如泰语、越南语在嘈杂环境下会有约15%的误识别率——这个数字来自谷歌2024年的技术白皮书,他们自己在博客里也承认「机场和餐厅仍是挑战场景」。
耳机成了新的交互入口
谷歌选在这个时间点推iOS版本,时机很微妙。苹果自家的AirPods Pro 2去年新增了对话感知功能,能自动降低音乐音量让你听清周围说话,但翻译能力为零。Meta的Ray-Ban智能眼镜也在试水实时翻译,但续航只有3小时,且需要配合手机使用。
谷歌的策略是「不造硬件,劫持硬件」。任何支持蓝牙协议的耳机都能用,从9.9元的华强北到3000元的索尼WH-1000XM5,一视同仁。这降低了用户门槛,也让谷歌的翻译网络效应滚得更快——每多一个用户,语音模型的训练数据就多一分。
我测试了几个边缘场景:地铁报站、菜市场讨价还价、医院挂号。前两者基本可用,医院场景因为专业术语密集,「冠状动脉造影」被译成了「心脏拍照」,需要手动纠正。谷歌的产品经理在官方博客评论区回复用户时说,医疗和法律场景「建议仍用人工翻译」,算是给自己留了退路。
11个国家的选择逻辑
新增7国不是随机挑的。法国、德国、意大利、西班牙覆盖欧盟核心旅游市场;日本、泰国是东亚-东南亚的枢纽;英国则是英语世界的锚点。加上原有的美国、加拿大、墨西哥、日本(日本是重复计算,实际新增6国),谷歌的实时翻译网络基本覆盖了全球前20大入境游目的地。
一个细节:泰国是新增国家里唯一的发展中国家。谷歌的考量可能是测试「低带宽环境下的模型压缩」——泰国4G网络平均下载速度35Mbps,远低于德国的65Mbps。如果泰国跑顺了,东南亚其他国家复制成本极低。
竞争对手也没闲着。苹果的翻译App在iOS 17加入了离线模式,但仅限文字;微软的Translator支持对话模式,但需要双方安装App并扫码配对。谷歌的耳机方案是目前唯一「单方持有即可」的解决方案——对方不需要任何设备,正常说话就行。
这改变了跨境交流的权力结构。以前出国旅游,要么学几句当地话示好,要么依赖翻译软件的双向确认。现在你可以戴着耳机全程沉默,对方的声音被实时替换成熟悉的语言。礼貌问题变成了产品问题:要不要让对方知道你在用翻译?谷歌的默认设置是「不提示」,但设置里可以开启「播放翻译前提示音」。
我在东京测试时,便利店店员听到提示音后明显放慢了语速,句子变短,用词更简单。这像是给对话双方都装了「降速带」——技术中介让交流更顺畅,也让交流变得更像交易。
谷歌没有公布iOS版本的DAU目标,但内部人士透露,2024年安卓端的实时翻译月活已经突破4000万,其中60%发生在旅游场景。iOS用户的付费意愿更高,谷歌正在测试「高保真语音」订阅功能,每月9.99美元解锁更接近真人语调的合成声音。
一个值得玩味的对比:谷歌翻译的全球月活超过10亿,但实时翻译功能的使用率不到5%。是用户不知道,还是场景不够痛?谷歌的产品团队显然押注后者——随着国际航班恢复、跨境商务重启,耳机里的翻译官可能会从「尝鲜功能」变成「刚需配置」。
你最近一次需要翻译的场景是什么?如果当时有个实时语音翻译在耳机里,你会用,还是觉得别扭?
热门跟贴