打开网易新闻 查看精彩图片

新智元报道

编辑:KingHZ

【新智元导读】谷歌强势回应OpenAI:开源TranslateGemma模型,支持55种语言,效率惊人!12B参数超越27B基线,手机端轻松运行,真正速通「巴别塔」。

语言的边界,正被AI一一抹平。

OpenAI悄悄发布了翻译产品ChatGPT Translate,谷歌则祭出强势回应——

TranslateGemma,一个能在手机上翻55种语言的开源模型。

AI正在徐徐开启巴别塔之门。

从语义润色到图文混合,从文风调节到设备端运行,AI翻译不再是「你说我译」,而是对人类沟通方式的全新重构。

不同于OpenAI几乎悄无声息的上线ChatGPT翻译,谷歌全网高调宣布发布了支持55种语言的开源翻译模型TranslateGemma。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这的确值得一说,AI正在降低沟通障碍,全网好评不断。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

ChatGPT:偷袭谷歌翻译

近日,OpenAI首次挑战谷歌翻译。

一款名为ChatGPT Translate的独立翻译工具,低调上线了。

OpenAI 几乎没有任何公开宣传,目前都不知道ChatGPT Translate具体何时上线。

互联网档案馆(Internet Archive)的Wayback Machine上有一张11月份的网页快照:

https://web.archive.org/web/20251119103023/https://chatgpt.com/translate/

看起来与当前页面几乎一致,但这也可能只是 OpenAI 在测试该工具的线上版本。

该工具支持超过 50 种语言,基础界面与谷歌翻译高度相似。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

左右滑动查看

但在功能逻辑上,ChatGPT翻译引入了生成式AI的核心优势,最大亮点在于翻译后的「二次加工」能力

用户可以通过预设的提示词选项,一键调整译文的语气,如「更流利」、「商务正式」、「儿童易懂」或「学术风格」,从而实现针对不同受众的精准表达。

然而,作为初版产品,它目前在功能完整性上仍落后于谷歌,暂不支持文档、网页及手写翻译、图片翻译功能。

目前,ChatGPT Translate仅以网页形式存在,并没有专门的App。

因此,离线使用似乎仍无从谈起。

如果没有一款支持端侧翻译的应用,ChatGPT Translate对于在无网络的偏远地区旅行的用户来说可能并不实用。

另外,它也尚未提供实时对话翻译功能。相比之下,谷歌的Pixel 10现在已经支持通话语音实时翻译。

此前,ChatGPT已可以用于多语言翻译任务,但这还是OpenAI第一次推出独立的AI翻译服务,而且无需登录可免费使用。

打开网易新闻 查看精彩图片

2023年,沃顿商学院教授Ethan Mollick就注意到,ChatGPT翻译能力出色:

尽管ChatGPT就是为了英语中使用而构建,并不是翻译工具,但在一些小规模测试中,在翻译能力上,ChatGPT经常优于Google Translate(谷歌翻译)

打开网易新闻 查看精彩图片

2024年,美国明尼苏达州政府利用ChatGPT加快并扩大面向非英语居民的翻译服务

  • 明尼苏达州企业翻译办公室使用ChatGPT将政府文件翻译成多种语言

  • 人工智能辅助流程将翻译时间从数周缩短至48小时以内

  • 自实施以来,该办公室已处理了3000份翻译请求,累计翻译超过200万字

打开网易新闻 查看精彩图片

去年,网友使用过ChatGPT翻译功能后,直呼:头皮发麻,这就是双语实时翻译天花板。

打开网易新闻 查看精彩图片

ChatGPT Translate的问世标志着翻译工具正从单纯的「语言转换」向注重语境与交互的「智能适应」方向演进。

不过,尽管这些语气与语境方面的能力颇具吸引力,ChatGPT Translate与谷歌翻译相比仍显得有些「半成品」——

后者已发展了数十年,最近还通过基于Gemini的改版进一步增强了对习语和俚语理解的支持。

而且,谷歌这次直接开源了最新的翻译AI模型,直面ChatGPT的挑战。

打开网易新闻 查看精彩图片

谷歌TranslateGemma让手机翻译55种语言

基于Gemma 3,谷歌发布了开源翻译模型TranslateGemma,它非常酷:

  • 支持55种语言,并在近500种附加语言对上进行了训练,以供进一步研究

  • 效率出色:12B模型超越了27B基线模型,在参数数量不到一半的情况下实现了更优的性能

  • 保留多模态能力:能够翻译图像中的文本,而无需特定的多模态训练

  • 灵活的部署选项:4B适用于移动设备/边缘设备,12B适用于消费级笔记本电脑,27B适用于云GPU/TPU

打开网易新闻 查看精彩图片

在对模型的技术评估中,最令人瞩目的发现是它们的效率表现。

12B参数规模的TranslateGemma模型,在WMT24++基准测试中使用 MetricX 衡量后,性能超越了27B的Gemma 3基线模型。

这对开发者来说无疑是巨大利好:只需不到一半的参数量,就能实现高度保真(high-fidelity)的翻译质量。

这项效率上的突破,意味着可以在不牺牲准确性的前提下,实现更高的吞吐量与更低的延迟。

同样值得注意的是,4B模型的表现已接近原本的12B基线水平,这使得它成为移动端推理的理想选择。

打开网易新闻 查看精彩图片

这意味着开发者可以构建完全在设备端运行的低延迟翻译工具。

TranslateGemma的背后,源自Gemini模型体系。

之所以能实现如此高密度的智能表现,关键在于一种专门设计的双阶段微调流程,将Gemini模型的「直觉」成功蒸馏并融入开放架构中。

第一阶段:监督式微调(SFT)

他们以Gemma 3的基础模型为起点,使用多样化的平行语料进行微调。这些语料既包含由人工翻译的高质量文本,也涵盖由最先进的Gemini模型生成的高质量合成译文,覆盖范围广泛,甚至在低资源语言上也能保持出色的翻译保真度。

第二阶段:强化学习优化(RL)

为了进一步提升翻译质量,他们引入了创新性的强化学习环节。在这一阶段,他们构建了一套奖励模型的集成系统,包括MetricX-QE和AutoMQM等先进评估指标,引导模型生成更具上下文准确性、听起来更自然的译文。

此外,TranslateGemma延续了Gemma 3在多模态方面的强大能力。

在Vistra图像翻译基准上的测试表明,即使在训练过程中并未专门进行多模态微调,其文本翻译能力的提升也显著增强了模型处理图像中文字翻译的表现。

这意味着,TranslateGemma 在文字与图像的交叉处理能力上,也具有天然的优势。

这场由OpenAI与谷歌引燃的AI翻译之争,早已超越「谁更准确」的争议,而是走向「谁能更像人、谁能真正懂人」的深层较量。

从语言模型到语境模型,再到认知协同系统,AI正在让世界重写沟通规则。

而真正的赢家,或许是全人类。

参考资料:

https://blog.google/innovation-and-ai/technology/developers-tools/translategemma/

https://www.androidauthority.com/chatgpt-translate-3632584/

https://chatgpt.com/zh-Hans-CN/translate/

https://x.com/GoogleDeepMind/status/2011848249850630363

打开网易新闻 查看精彩图片