前段时间举行的 Google I/O 上,Google 正式发布了新一代 Gemini 3.5 模型,同时也提到未来会将 Gemini 的能力融入到 Google 生态的更多产品中。
但让雷科技没想到的是,第一个用上 Gemini 的 Google 生态应用并不是搜索、Youtube、地图等 Google 生态大户,而是近几年存在感不断降低的 Google 翻译:昨天,Google 发布 Google 翻译更新,在翻译中加入了最新的音频模型 Gemini 3.5 Live Translate(下文简称 Gemini 3.5 LT)。
图片来源:Google
那么在 Gemini 3.5 LT 的驱动下,Google 翻译的实时语音翻译功能体验又如何呢?
错词漏词依旧存在,单向翻译模式存硬伤
打开 Google 翻译的实时翻译功能,选择「实时听」模式,就能进入全新的 Gemini 3.5 LT 驱动的翻译模式了。不过奇怪的是,这个「实时听」模式必须连接外置耳机才能激活。考虑到 Google 翻译这个实时听模式并不能像时空壶同传模式那样双向同时工作,雷科技对这个「必须接耳机才能用」的设计实属不解。
好在这个「实时听」模式的操作还算简单:打开实时听模式,把手机靠近对方,耳机里就能「实时」听到翻译后的音频了。
图片来源:雷科技
和 Google 翻译之前那个按住才能说话、松手才开始翻译的「对话」模式相比,实时听模式会在对方完成一个短句后开始翻译,时效性要高不少。但在翻译时,Google 依旧有比较明显的延迟。
以中译英的古诗翻译为例,要念到第三句时,耳机里才会听到第一句的翻译,和专业同传耳机那种几乎「同时启动」的翻译还是有点差距。
至于翻译准确性的问题,雷科技这里给 Google 翻译安排了几个比较经典的游戏对话「原声大碟」用于测试,同时也拉来了苹果翻译和有道翻译作为对比。
我们先来看看原文,相信玩过 GTA:SA 的玩家对这段点餐录音都不会陌生:
I'll have 2 number 9s, a number 9 large, a number 6 with extra dip, a number 7, 2 number 45s, one with cheese and a large soda.
以下是 Google 翻译「听」到的英文原文:
Now, I have two number nines, but number nine Lord, number six with extra dip, a number seven, two number 45s, one with cheese and a large soda. Okay.Okay.
可以看到,即使是由 Gemini 3.5 LT 驱动的 Google 翻译,在一些细节处也会错过原文,比如:
I’ll have 变成了 I have(连读遗漏);
a number 9 large 变成了 but number nine Lord(识别错误);
开头、结尾处也多了 Now 和 Okay.Okay.(识别幻觉)。
不过在翻译效果方面,Google 翻译倒是准确的把这个错误的原文翻译了出来。
图片来源:雷科技
而在语音渲染方面,Google 翻译输出的语音和单纯的 TTS 语音相比,确实更有节奏感,更像是真人说出来的,但依旧能听出这是 AI 合成语音。
相比之下,Apple 翻译的问题就大得多了:识别出现大量错误,翻译几乎不可用。
图片来源:雷科技
有道的同传效果反而更稳定,只出现了一处连读遗漏(「I’ll have」变成了「I have」)和一处识别错误(「Soda」变成了「Soup」),翻译质量和速度也同样稳定。
图片来源:雷科技
另外,Google 翻译这个「实时听」模式还有一个很奇怪的地方:不知道出于什么原因,Google 翻译不会保存「实时听」的翻译记录:
除了「实时听」,Google 翻译还有「对话」「文本」等多种翻译模式,后者在翻译结束后都能从历史记录里看到原文与翻译的文本。但「实时听」模式下的翻译记录在退出该模式(耳机断开导致的强制退出也算)后全部消失。
如果你打算用 Google 翻译的「实时听」模式做采访记录,那雷科技劝你还是放弃这个想法。
图片来源:雷科技
另外,在体验中雷科技还发现 Google 翻译的「实时听」模式依旧存在错译和主语混乱的情况。但从好的方面想,即使是真人翻译也难免会出现错译、漏译的情况,而 Google 翻译这类翻译软件能以更快的速度迭代技术、查漏补缺。
更重要的是,作为全球通用翻译赛道的代表,Google 翻译加入 AI 阵营,必将推动整个通用翻译赛道朝着 AI 翻译转型。
翻译成了最值得关注的AI落地场景之一
其实把 Google 翻译这次更新单独拿出来看,雷科技认为这只能算得上是一次「AI 功能补课」:别人都在接大模型,Google 翻译当然也要接。但如果把视角放到 2026 年整个 AI 硬件市场,雷科技反而觉得翻译可能是今年最值得关注的 AI 落地场景之一。
原因也不复杂:和很多还停留在「炫技」阶段的 AI 功能相比,「翻译」的需求足够明确,也足够高频。不同于需要「教育用户」「创造需求」的品类,品牌不需要解释「加 AI 能干什么」,用户也不会质疑「为什么要用 AI」。
比如时空壶此前推出的 X1 Meeting AI 会议同传设备,就利用时空壶的 AI 模型能力,解决了同传过程中断句点识别、语义推测、上下文纠错的传统短板。在「翻译」之外,时空壶也用 AI 技术打造了骨声纹识别功能,让翻译耳机可以准确识别哪句话是从谁嘴里说出来的,为后面的同传翻译环节打下基础。
图片来源:雷科技
讯飞刚发布的 AI 眼镜则是另一条路线。自诞生以来,主流智能眼镜都围绕「拍摄」这一核心场景来打造产品。但上个月发布的讯飞 AI 眼镜别出心裁地将「全场景翻译」定为 AI 眼镜的核心。
图片来源:雷科技
以翻译替代拍摄,这不仅用更高频的场景解决了智能眼镜「吃灰」的问题,也充分发挥了讯飞自己的优势,借助讯飞在翻译领域多年的技术积累,以最快的速度让讯飞 AI 眼镜在智能眼镜赛道立足。
而在雷科技看来,无论时空壶同传耳机,还是讯飞 AI 眼镜,这些 AI 翻译设备本质上都在试图让翻译从一个 App 功能,变成一种可以「移植」到不同硬件中的能力,从而覆盖更多的场景。
以 Google 翻译为例,虽然现阶段的 Google 翻译还面临延迟、漏译、记录缺失等问题;但长远来看,Gemini 3.5 LT 的实时音频能力完全可以接入耳机、眼镜、会议设备,甚至汽车座舱当中。
对时空壶、讯飞这类专业翻译硬件厂商来说,Gemini 3.5 LT 的出现既是压力,也是机会。「压力」很好理解:Google 这样的玩家一旦下场,必然会抬高用户对免费翻译工具的预期——去年各手机品牌先后为 TWS 耳机加入 AI 翻译功能,就直接挤压了入门翻译耳机的市场空间,拉高了翻译耳机能力的「及格线」。
图片来源:京东
但从另一个角度想,通用翻译也有着天然的短板:商务会议需要多人识别,采访需要留备份,跨境展会需要长时间续航,嘈杂环境需要更强收音,这些都不是单靠一个模型更新就能解决的。
也正因如此,Google 翻译变强并不意味着翻译耳机、翻译眼镜的故事就此结束。
Google 翻译等通用翻译 App 和采用通用翻译模型的产品,只能解决「从无到有」的问题。而未来的高端翻译耳机,必将把专用 AI 能力当作产品迭代的核心驱动力,用更快、更强的专用翻译模型拉开体验的差距。也只有这样,才能在 AirPods 等「AI 翻译耳机」带来的冲击下守住核心用户群,并在更细分、更高价值的市场中延续优势。
随着免费 App 把基础翻译门槛越拉越低,专业设备就必须在专业场景中证明自己的实力和价值。可以肯定的是,随着 AI 技术在翻译赛道的普及,翻译硬件也必将迎来新一轮的洗牌。
技术迎来革新、产品优胜劣汰、消费者体验升级,这才是 AI 技术推动行业发展的意义。
热门跟贴