Meta AI所打造的NLLB-200是第一个能对200种不同语言提供先进质量翻译的单一人工智能(AI)模型。

Meta AI也建立了全新的评价数据集FLORES-200,并衡量NLLB-200在每种语言中运作的成效,以确认能够提供高品质的翻译内容。相较于以前的先进技术水准,NLLB-200的平均质量高出44%。

Meta AI现在正运用源自这个项目的建模技术和学习成果,在Facebook、Instagram和维基百科(Wikipedia)上改善翻译质量及扩大翻译范围。

为协助其他研究人员改善他们的翻译工具,并以Meta AI的工作为基础打造更优质的翻译系统,Meta AI将针对以下项目开放原始码:NLLB-200模型、FLORES-200、模型训练代码以及用于重建训练数据集的代码。

语言是我们在世界上展现文化、身份的工具,也是我们的命脉。但因为没有能够提供上百种语言的高品质翻译工具,现今有数十亿的用户无法使用他们惯用的语言或母语在网路上存取数位内容,或者完整参与对话和社群。对于使用非洲和亚洲众多语言的数亿用户来说,这种情况尤其明显。

为协助现今的用户沟通交流,也作为未来元宇宙的一环,Meta AI研究人员建立了「不遗漏任何语言」(No Language Left Behind,简称NLLB)项目,致力为全世界大部分的语言开发高品质的机器翻译功能。现在,Meta AI在此宣布NLLB的一项重大突破:Meta AI已打造出名为NLLB-200的单一AI模型,能以最先进的成果翻译200种不同语言。

目前现有的最佳翻译工具中,仍有许多语言(例如坎巴文和寮语文)缺乏完善支持,或甚至不受支持。目前广受使用的翻译工具支持不到25种非洲语言,且多数质量不佳。相比之下,NLLB-200支持55种非洲语言,且提供高品质的翻译成果。整体而言,这个单一模型可为全球数十亿用户所用的语言提供高品质的翻译内容。总的来说,NLLB-200的BLEU分数在FLORES-101基准的所有10,000个方向中,较现有的先进翻译工具分数平均提升了44%。在部分非洲和印度语言中,提升幅度相较最新的翻译系统更提升了70%。


更多Transformer 视频动画教程请参考头条号:人工智能研究所

Meta AI现在已开放NLLB-200模型的原始码并发布一系列研究工具,让其他研究人员将此工作扩大至更多语言,以及打造更具包容性的技术。此外,Meta AI也向非营利组织提供多达$200,000美元的补助金,以推广NLLB-200的实际应用。

由于翻译对民众日常生活的影响极大,因此是AI中最值得期待的领域之一。NLLB不仅能让用户更容易存取网络上的内容,还能让使用不同语言的用户透过简易的方式贡献及分享信息。我们前方还有更多的工作需要完成,但近期的进展以及这项进展带领我们向实现Meta的使命前进了一大步,给予我们满满能量面对未来。

您可以在此探索NLLB-200的示范,示范会展示此模型如何翻译来自世界各地的动态,并在此阅读研究论文。

为超过十亿的用户解锁翻译工具

Meta AI与主办维基百科和其他免费知识项目的非营利组织维基媒体基金会(Wikimedia Foundation)携手合作,协助改善维基百科的翻译系统。维基百科有超过300种语言版本,但多数语言版本的文章数量远少于英文版所提供的超过6百万篇文章。对于主要在欧洲和北美洲以外地区使用的语言来说,这项差距特别巨大。举例来说,以林加拉文撰写的维基百科文章约有3,260篇,这是由刚果民主共和国、刚果共和国、中非共和国和南苏丹的4500万人所用的语言。相比之下,如瑞典文这种在瑞典和芬兰有1千万人使用的语言,却有超过250万篇文章。

维基百科编辑人员现在正透过维基媒体基金会(Wikimedia Foundation)的内容翻译工具运用NLLB-200模型背后的技术,将文章翻译成超过20种资源匮乏的语言(这些语言没有可用于训练AI系统的大量数据集),其中包括先前在该平台上没有任何机器翻译工具提供支持的10种语言。

——2——

为数百种语言建立单一模型的挑战

就像所有AI模型一样,机器翻译系统需要数据来进行训练。对文字翻译系统而言,这通常包含在多种语言之间仔细配对数百万个句子。但有个简单例子,在英文与富拉文之间没有大量的平行结构句子。现有的翻译模型试图透过从网络挖掘数据来克服这个问题。但因为每种语言的来源文字不同,所得成果通常质量不佳。此外,这些数据经常充斥着错误或不一致的拼法,并且遗漏重音符号和其他变音符号。

另一个重大挑战是,必须在无损性能或翻译质量的情况下对单一模型进行最佳化,以在数百种语言之间顺利运作。长久以来,最佳翻译质量都是来自针对每个语言方向建立单独的模型。但是这种做法难以扩大规模,因为只要新增更多语言,性能和翻译质量就会下降。

众多翻译模型也会产生难以捕捉的错误。这些系统是由用于产生文字的神经网络所建立,因此可能会自然产生幻觉(自信地陈述某件事为真实,就算实际上非真实也一样)、误报和不安全的内容等错误。一般来说,资源匮乏的语言就是拥有较少基准和数据集,这导致测试和改善模型的工作更加困难。

——3——

构架、数据源、基准分析法等方面的创新

近年来,Meta AI在克服上述挑战时获得了稳定的进展。2020年,Meta AI宣布了100种语言的M2M-100翻译模型,这个模型利用全新的方法来取得训练数据,在无损性能的情况下以新的构架扩大模型规模,并采用新的方式来评价和改善翻译成果。为了扩大至另外100种语言,Meta AI在这三个领域均获得长足的进展。

扩展训练资源

为搜集更多语言的高准确度平行结构文字,Meta AI改善了LASER,这是Meta AI在自然语言处理(NLP)中用于进行零样本转换的工具组。新版的LASER3并未采用LSTM,而是采用以掩码语言建模(Masked Language Modeling)目标进行自我监督式训练的Transformer(转换)模型。Meta AI采用师生训练程序及建立语言组专用的编码器,借此扩大LASER3的语言涵盖范围并产生大量的句子配对(就算是资源匮乏的语言也一样),进一步提升性能。Meta AI将对其他研究人员开放LASER3多语言内嵌方法的原始码,另外也提供不同语言配对的数十亿个平行结构句子,这些句子都已经过本文所述各种技术的挖掘和清除程序。

由于Meta AI在寻找更多语言的训练示例时会更广泛地网罗来源,因此确保示例维持高品质至关重要。Meta AI彻底翻新了数据清除管道以扩大至200种语言,同时新增重要的筛选步骤,包括先使用Meta AI的LID-200模型来筛选数据,并从网际网络规模的语料库中精确移除噪声。Meta AI为200种语言开发了完整的负面内容清单,然后利用这些清单来评价和筛选出可能的幻觉负面内容。这些步骤能够确保数据集内含正确识别的语言,且更简洁更少负面内容。这对提升翻译质量和减少称为幻觉负面内容的风险极为重要,有助防止系统在翻译过程中误将负面内容带入。

——5——

扩大模型规模,同时维持高效能

多语言翻译系统提供两大优势。这类系统能够让相似语言在训练期间共享数据,例如阿萨姆文和孟加拉国文都使用孟加拉国文作为书写文字。这能协助资源匮乏的语言透过与相似且拥有大量资源的语言一起进行训练,大幅提升翻译质量。此外,研究人员在使用单一多语言模型进行修正、扩大规模和实验时,会比使用数百或数千个不同双语言模型更加容易。

不过,要将模型从100种语言扩展至200种语言仍然有许多重大挑战。随着训练数据中资源匮乏的语言配对越来越多,多语言系统在我们进行较长期的模型训练时开始过度配对。我们透过三方面的创新技术解决这些问题:正规化与课程学习、自我监督学习以及多样化的反向翻译。

小程序:AI人工智能工具

首先,Meta AI开发出拥有共享且专用数据容量的专家混合(mixture-of-experts)网络,以此将数据不多、资源匮乏的语言自动转送至共享的数据容量。只要与设计良好的正规化系统结合,这种做法就能避免过度配对。同时,Meta AI也采用两步骤课程学习的方法,Meta AI会先在数个时期中训练拥有大量资源的语言,之后再引入资源匮乏的语言配对,这样就能再次减少过度配对的问题。接着,由于资源匮乏的语言平行结构双语料数据量较少,我Meta AI同时针对资源匮乏的语言和相似且拥有大量资源的语言,进行单语言数据的自我监督学习,以提升整体模型性能。

最后,Meta AI分析如何透过最佳方式产生反向翻译数据,发现将双语言统计机器翻译模型与多语言神经机器翻译模型所产生的反向翻译数据混合,能够提升资源匮乏语言的性能,这归功于产生的合成数据增加了多样性。为了训练含有54B参数的NLLB-200模型,Meta AI使用了新打造的Research SuperCluster(RSC),这是世界最快的AI超级电脑之一。

——6——

适用于200种语言的评价工具

为评价和改善NLLB-200,Meta AI建立了FLORES-200,这是独特的多对多评价数据集,能让研究人员评价40,000个不同语言方向的性能。Meta AI将开放这个新数据集的原始码,借此协助其他研究人员迅速测试及改善他们的翻译模型。FLORES-200可用于评价应用于各方面的翻译系统,包括在使用资源匮乏语言的国家或地区内的健康手册、电影、书籍和网络内容。

扩大至200种语言必须解决产生负面内容的风险,这在多向翻译系统内进行管理愈显困难。我们对所有支持的语言建立了负面内容清单,以便侦测并筛选出亵渎词语和其他可能具冒犯性的内容,借此解决这个问题。我们会发布所有200种语言的负面内容评价清单和基准,为其他研究人员提供工具,以降低他们模型中的风险。

而为了确保Meta AI以负责任的方式扩展计划,Meta AI与包括语言学家、社会学家和伦理学家在内的跨学科团队合作,深入了解每种我们研究的语言。

此图象显示针对FLORES-101在英语双向翻译至100种语言的平均BLEU分数。左侧为两个已发布的最新模型:M2M和Delta LM,支持100种语言。右侧模型支持200种语言:使用3.3B参数的基准线Transformer模型、使用自我监督学习(SSL)的基准线模型、使用反向翻译(BT)的基准线模型,以及同时利用自我监督学习和反向翻译,具有大型混合专家模型的NLLB-200。

——7——

扩展翻译范围及提升包容性

高品质的翻译工具可以带动革新。现今的现实是仅有少数的语言主导网络,包括英文、中文、西班牙文和阿拉伯文。这些被广泛使用的语言母语人士可能无法了解,能以自己的母语阅读,其意义有多么重大。Meta AI相信NLLB有助于保留语言,因为它的设计为共享性质,而不需要总是透过中介语言,而在情感/内容上发生错误。

这项项目也有助于推动翻译以外其他NLP工作的进展。这包括组建能以爪哇文和乌兹别克文等语言顺利运作的助理,或是建立能将宝来坞电影加上准确斯瓦西里文或奥罗莫文字幕的系统。随着元宇宙开始逐渐成形,建立能够以数百甚至数千种语言顺利运作的技术能力,对于以多种方式存取虚拟世界的全新沉浸式体验确有帮助。

在短短的几年前,高品质的机器翻译只能在少数语言中运作。有了NLLB-200,Meta AI将持续扩大机器翻译涵盖范围