来源:市场资讯
一个直观的解释是训练数据不足,但更本质的问题在于表示空间不匹配。已有研究表明,LLM 已经在统一的语义空间中编码了丰富的跨语言知识,并且在处理多语言文本时会专门「经过」这个统一语义空间(如英语表示空间)。这意味着,LLM 的多语言瓶颈不在缺乏知识,而是难以将已有的知识正确映射到多语言表示空间中。
与此同时,多语言神经机器翻译(NMT)模型在跨语言表示建模方面表现出色。这些 NMT 模型通过 encoder-decoder 架构构建了一个统一的跨语言语义空间,实现上百种语言之间稳定的语义转换。这启发我们:能否将 LLM 的知识处理能力和多语言 NMT 模型的多语言能力组合,实现优势互补?
基于这一思路,中国科学院计算技术研究所 NLP 团队提出了一种新的多语言扩展范式 XBridge:组合 LLM 以英文为中心的通用能力,以及现有多语言 NMT 模型的多语言理解和生成能力,实现二者的能力互补,组合成一个多语言通用模型。换言之,将多语言理解和生成卸载到外部 NMT 模型,LLM 进行以英文为中心的通用知识处理。
论文:https://arxiv.org/abs/2603.17512
代码:https://github.com/ictnlp/XBridge
模型:https://huggingface.co/collections/ICTNLP/xbridge
该成果已被 ACL 2026 主会接收。
XBridge:模型组合的多语言扩展方案
XBridge 的核心思想是,将多语言能力卸载到 NMT 模型,同时保留 LLM 作为知识处理和推理的核心。
1. 模型架构
XBridge 采用 encoder-LLM-decoder 三段式架构,模块之间用 MLP 架构的轻量映射层连接:
NMT encoder:将多语言输入映射到共享语义空间。
LLM:以英语为中心的知识处理和推理核心。
NMT decoder:生成目标语言输出。
直观来看,多语言输入首先被 encoder 编码成共享语义表示,再由 LLM 进行知识处理和推理,最后 decoder 映射到目标语言输出,实现完整的多语言「理解 - 处理 - 生成」闭环。
2. 最优运输对齐
由于不同模型之间的表示空间天然不一致,例如 token 粒度上严重错位,单纯利用 MLP 进行跨模型表示映射难以实现语义一致的转换。为解决这一问题,我们引入最优运输(Optimal Transport, OT)对齐目标,自适应地学习 token 粒度的软匹配,从而在不同长度、不同分词方式的异构表示空间之间建立细粒度的语义对齐关系,实现稳定的语义转换和高质量的多语言生成。
3. 三阶段训练策略
为在不同模型之间建立稳定对齐,XBridge 设计三阶段训练策略,LLM 全程无需训练:
跨模型对齐阶段:学习 encoder-LLM-decoder 之间的基础语义映射关系。
编码器适配阶段:让 LLM 学会利用 encoder 表示完成下游任务。
解码器适配阶段:进一步提升 decoder 多语言生成质量。
分阶段的训练设计能够有效避免不同优化目标之间的冲突,使模型能够逐步建立稳定的跨模型映射,并适配下游任务。
实验结果:
不训练 LLM 即可支持高质量未见语言问答
1. 多语言能力成功卸载到 NMT 模型
在 FLORES-101 翻译任务上,XBridge 显著提升了 LLM 在低资源语言或未见语言(如孟加拉语、斯瓦西里语等)上的理解和生成能力,性能接近或超越外部 NMT 模型。这表明 LLM 的多语言能力是可以卸载到外部 NMT 模型的。
2. 下游任务显著提升
在多语言数学推理(MGSM)和摘要生成(XL-Sum)任务上,XBridge 在低资源语言上获得显著提升,显著缩小高资源、低资源语言的性能差距,同时保持或提升高资源语言性能。值得注意的是,这个过程不需要训练 LLM。
3. 可泛化、语言无关的跨模型映射
XBridge 在未训练的语言上仍表现出良好的泛化能力,性能甚至接近外部 NMT 模型,这表明 XBridge 学到的是一种语言无关的跨模型映射。此外,OT 任务对语言生成的泛化具有重要作用。
4. 可控语言生成与无损语言切换
通过控制 decoder 输入语言标签,XBridge 可以灵活指定输出语言,实现任意语言对之间的跨语言生成,同时保持无损的多语言切换。
以下是一个语言切换示例。
5. 系统演示
我们借助一阶段的泛化性,直接在 50 种语言的通用指令遵循数据上训练 XBridge。以下是一个 demo,展示了 XBridge 多语言问答能力和语言切换的效果。
总结与展望
通过将多语言能力卸载到外部 NMT 模型,XBridge 在不训练 LLM 的前提下,实现了对低资源和未见语言的高质量支持。除了性能的提升,XBridge 更重要的价值在于为 LLM 的多语言扩展提供了一个新思路:扩展 LLM 的多语言能力,或许不再需要依赖大规模、高质量、多任务的多语言训练数据,而是可以通过组合现有模型,实现低成本扩展。
作者介绍
卜梦煜,中国科学院计算技术研究所博士研究生,导师为冯洋研究员。主要研究方向为多语言大模型。在 ACL、EMNLP 等自然语言处理领域顶级国际会议发表多篇论文。
冯洋,中国科学院院计算技术研究所研究员、博士生导师,担任国际计算语言学学会执委(ACL Secretary)以及 ACL/EMNLP 等多个国际会议高级领域主席,获 ACL 2019 唯一最佳长文奖。主导研发了百聆大模型和 LLaMA-Omni 即时交互语音大模型(曾位列 Huggingface 连续一周模型下载量前十)。
热门跟贴