AI翻译还没赢：DeepL和Claude实测互有胜负|claude|deepl|上下文|术语|翻译|译文

同样把一段英文财经稿扔进翻译工具，多数人会赌大语言模型胜出。可当我把DeepL和Claude拉到同一个对照界面上、逐句比对时，结果却有点反常识：被神化的AI大模型并没有全盘碾压老牌神经机器翻译，反倒是各有一半的句子翻得更让人点头。

这个对比过程本身就挺有意思，所以我把每一步都记录下来——不是为了证明谁更强，而是想看清楚，不同的翻译引擎到底在哪种语境下会掉链子。

整个实测的起点是一款叫ITransBook的翻译工具。打开后，左侧竖排图标里找到「文件翻译」的入口，点进去，再在左上角点那个加号新建一个项目。项目名称我填的是“Comparison of DEEPLE and Claude engines”，正好把两个选手的名字都标出来。源语言选英语（美国），目标选项设置成“1对多”，目标语言勾选中文简体，翻译引擎就选DeepL和Claude，两台引擎并排对照。右侧有个“API设置”的按钮，点进去之后不用再手动填密钥，因为我已经买过套餐额度了，直接从模型列表里找到了claude-sonnet-4-6，选定后保存。到这里，一个专门用来擂台PK的翻译项目就算搭好了。

接下来就是把待翻译的文件直接拖进上传区。上传完成、翻译启动的过程几乎安静到没存在感，等几秒后屏幕上就蹦出来一篇双语对照的表格。点击“更多”按钮，导出多语种文档，勾上全部三个显示选项，导出，打开文件夹，双击那个对照文件——一场逐句的翻译较量就这么摊开在眼前。

第一个翻车点出现在一个极小的词上：token。在上下文里，它明显指的是大模型里计算费用的基础单位，但DeepL和Claude都没给出准确的译法。碰巧的是，就在今年3月25日，全国科学技术名词审定委员会刚发过公告，优先推荐“词元”作为人工智能领域“token”的规范中文术语。用这个新标尺来卡，两台引擎的译文齐刷刷地错了。这也让后面整场对比多了一个观察维度：技术新词正在快速涌入日常文本，可翻译引擎的术语更新还没跟上。

接着，一句讲企业需要具备人力资本与内部AI能力的句子，直接把两家的功力差暴露了出来。原文是“companies need to have both human capital and in-house AI capabilities...”，DeepL给出的译法只保留了一个简洁的“需要”，后面直接跟上并列成分，语法上是读得通的，但少了点对企业双重储备的强调。Claude的版本则补上了“需要同时具备”这几个字，立刻让“人力资本”和“内部AI能力”之间的并列关系更清晰，也更能让人一眼看出原句想表达的那种缺一不可的紧张感。就这一句来说，我个人更倾向Claude的处理。

不过到下一段，局面就翻了过来。原文中出现了“firms across the economy”和“workers”这两个表达。DeepL把它们分别处理成“各行业企业”和“员工”，意思既直白又贴合上下文；Claude却把“workers”译成了“劳动力”。在讨论企业具体的雇佣关系和岗位调整时，“劳动力”这个词显得过于抽象，甚至会带上一点宏观统计的味道，和整段想传递的组织层面的人才变动不太搭。所以这一段我明确把票投给了DeepL。

接着碰到一个真正让二者都犯难的词组：“a lot of displacement”。无论是DeepL还是Claude，给出的译文都差着一口气，而DeepL的版本离原意甚至还要更远一点。如果让我来定，把“a lot of displacement”翻成“大量岗位变动”才能同时保住“数量大”和“岗位被替代、调整”这层意思。这个案例也恰好说明，在劳动力市场相关的表达里，直译几乎必然会损耗信息，而现阶段机器的判断力还不太够。

再看术语一致性的问题。原文里前后出现了两次“narrative”——第一次是“just narrative”，第二次则是带复数形式的“narratives”。DeepL第一次把“narratives”译成“说辞”，带上了比较明显的倾向性和感情色彩，放在批判某种流行论调的语境里非常对味；可紧跟着遇到“just narrative”时，又译回了冷冰冰的“叙事”，同一个概念在前后句里被拆成了两种感觉，读起来会有刹那的错位。两句话综合下来，我仍然觉得DeepL在这一段的选词更机敏，只是那种术语使用的不一致确实是个瑕疵。

对照的尾巴还有一句关于降价的内容：“reduce prices for customers”。正当我想看看两台引擎在商业场景里怎么拿捏分寸时，DeepL给出的译文却没能完整显示在文件里，这一项的对比只能被迫止步。也好，这倒让整场实测多了一个很现实的注脚：工具再好，实际使用里总会有导出、格式、断句之类的意外，真实的生产流程永远比跑分复杂。