Fahmi Ruddin Hidayat/iStock
来源:IEEE电气电子工程师学会
This article is part of our exclusive IEEE Journal Watch series in partnership with IEEE Xplore:https://spectrum.ieee.org/tag/ieee-xplore。
几年前,在机器翻译等任务上,人类的表现明显优于机器学习算法。但如今,两者之间曾经清晰的能力界限正在变得模糊。
在最近一项研究中,研究人员将多款大语言模型(LLM)的翻译能力与专业人类译者进行对比,结果发现:只有拥有10年及以上经验的持证专家,才能明显超越这些模型。而在某些翻译维度上,模型表现反而优于人类。该研究成果已于12月15日发表在《IEEE大数据汇刊》上:https://ieeexplore.ieee.org/document/11300973。
中国杭州西湖大学工学院副院长Yue Zhang指出,过去二十年间,机器学习算法的能力发生了“重大范式转变”,并特别提到新一代大语言模型的性能实现了巨大飞跃。但这些模型在翻译任务上的实际表现究竟如何?
他表示:“尽管过去已有模型宣称达到‘人类水平’,但相关结论一直存在争议。我们希望跳出模糊的对比,用更科学的方式,把大语言模型的表现和不同层级的专业译员做对标 —— 从初级到资深译员逐一校准。”
在该研究中,译员等级定义如下:
初级译员:拥有1–2年翻译行业经验
中级译员:拥有3–5年翻译经验,或为目标语言母语者
资深译员:至少10年翻译经验,且持有中国翻译专业资格(水平)考试(CATTI) 权威证书 —— 这是中国翻译领域的国家级标准。
研究人员让人类译者与包括GPT-4、ALMA-R、Deepseek-R1在内的大语言模型,对同一批文本样本进行翻译。团队聘请了6名专业标注人员对译文质量进行评估,且评估过程中不知道哪些译文来自人类、哪些来自模型。
研究要求两组对象完成多种语对翻译,既有中英这类常见语对,也包括中-印地语这类相对少见的语对。
结果显示,GPT-4的翻译能力已与初级、中级人类译者相当。Yue Zhang指出,这很可能是人类历史上首次有算法在翻译质量上达到了人类水平。
在包含约200个句子的文本段落翻译测试中,研究覆盖8组语言对。
GPT-4平均出现3.71处重大翻译错误
初级译员平均3.27处
中级译员平均3.30处
资深译员译文质量最高,平均仅1.83处重大错误
在处理小语种/冷门语对(如中译印地语)时,人类与模型的错误率都明显上升。
不过,人类与模型的错误类型截然不同:大语言模型有时会过于直译、生硬。人类则相反,在面对模糊、歧义表述时,容易过度脑补、自行补全含义。例如,研究中一名人类译者把短语entering his second year错误理解为“婴儿满两岁”,而原文实际是在描述进入第二年的运动员。Yue Zhang评价道:“这既是人类译者的优势,也是短板。”
研究显示,人类译者比大语言模型更容易出现过度解读类错误。但正是这种对语言语境的深度理解能力,也让资深译员能够精准处理更细腻、更有隐含意义的文本片段。Yue Zhang表示,在需要高精度、文化适配或复杂创意解读的任务(如文学作品)中,资深人类译者仍然不可或缺。但他同时指出,已有初步迹象表明这一局面正在改变。
他提到,在研究中:“深度推理模型DeepSeek R1尤其擅长避免重大翻译错误,这意味着具备推理能力的模型(如OpenAI o1、GPT-5、DeepSeek v3.2),或许是缩小与资深人类译者差距的关键。”
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
热门跟贴