同样把一段英文财经稿扔进翻译工具,多数人会赌大语言模型胜出。可当我把DeepL和Claude拉到同一个对照界面上、逐句比对时,结果却有点反常识:被神化的AI大模型并没有全盘碾压老牌神经机器翻译,反倒是各有一半的句子翻得更让人点头。

这个对比过程本身就挺有意思,所以我把每一步都记录下来——不是为了证明谁更强,而是想看清楚,不同的翻译引擎到底在哪种语境下会掉链子。

打开网易新闻 查看精彩图片

整个实测的起点是一款叫ITransBook的翻译工具。打开后,左侧竖排图标里找到「文件翻译」的入口,点进去,再在左上角点那个加号新建一个项目。项目名称我填的是“Comparison of DEEPLE and Claude engines”,正好把两个选手的名字都标出来。源语言选英语(美国),目标选项设置成“1对多”,目标语言勾选中文简体,翻译引擎就选DeepL和Claude,两台引擎并排对照。右侧有个“API设置”的按钮,点进去之后不用再手动填密钥,因为我已经买过套餐额度了,直接从模型列表里找到了claude-sonnet-4-6,选定后保存。到这里,一个专门用来擂台PK的翻译项目就算搭好了。

接下来就是把待翻译的文件直接拖进上传区。上传完成、翻译启动的过程几乎安静到没存在感,等几秒后屏幕上就蹦出来一篇双语对照的表格。点击“更多”按钮,导出多语种文档,勾上全部三个显示选项,导出,打开文件夹,双击那个对照文件——一场逐句的翻译较量就这么摊开在眼前。

第一个翻车点出现在一个极小的词上:token。在上下文里,它明显指的是大模型里计算费用的基础单位,但DeepL和Claude都没给出准确的译法。碰巧的是,就在今年3月25日,全国科学技术名词审定委员会刚发过公告,优先推荐“词元”作为人工智能领域“token”的规范中文术语。用这个新标尺来卡,两台引擎的译文齐刷刷地错了。这也让后面整场对比多了一个观察维度:技术新词正在快速涌入日常文本,可翻译引擎的术语更新还没跟上。

接着,一句讲企业需要具备人力资本与内部AI能力的句子,直接把两家的功力差暴露了出来。原文是“companies need to have both human capital and in-house AI capabilities...”,DeepL给出的译法只保留了一个简洁的“需要”,后面直接跟上并列成分,语法上是读得通的,但少了点对企业双重储备的强调。Claude的版本则补上了“需要同时具备”这几个字,立刻让“人力资本”和“内部AI能力”之间的并列关系更清晰,也更能让人一眼看出原句想表达的那种缺一不可的紧张感。就这一句来说,我个人更倾向Claude的处理。

不过到下一段,局面就翻了过来。原文中出现了“firms across the economy”和“workers”这两个表达。DeepL把它们分别处理成“各行业企业”和“员工”,意思既直白又贴合上下文;Claude却把“workers”译成了“劳动力”。在讨论企业具体的雇佣关系和岗位调整时,“劳动力”这个词显得过于抽象,甚至会带上一点宏观统计的味道,和整段想传递的组织层面的人才变动不太搭。所以这一段我明确把票投给了DeepL。

接着碰到一个真正让二者都犯难的词组:“a lot of displacement”。无论是DeepL还是Claude,给出的译文都差着一口气,而DeepL的版本离原意甚至还要更远一点。如果让我来定,把“a lot of displacement”翻成“大量岗位变动”才能同时保住“数量大”和“岗位被替代、调整”这层意思。这个案例也恰好说明,在劳动力市场相关的表达里,直译几乎必然会损耗信息,而现阶段机器的判断力还不太够。

再看术语一致性的问题。原文里前后出现了两次“narrative”——第一次是“just narrative”,第二次则是带复数形式的“narratives”。DeepL第一次把“narratives”译成“说辞”,带上了比较明显的倾向性和感情色彩,放在批判某种流行论调的语境里非常对味;可紧跟着遇到“just narrative”时,又译回了冷冰冰的“叙事”,同一个概念在前后句里被拆成了两种感觉,读起来会有刹那的错位。两句话综合下来,我仍然觉得DeepL在这一段的选词更机敏,只是那种术语使用的不一致确实是个瑕疵。

对照的尾巴还有一句关于降价的内容:“reduce prices for customers”。正当我想看看两台引擎在商业场景里怎么拿捏分寸时,DeepL给出的译文却没能完整显示在文件里,这一项的对比只能被迫止步。也好,这倒让整场实测多了一个很现实的注脚:工具再好,实际使用里总会有导出、格式、断句之类的意外,真实的生产流程永远比跑分复杂。