由 文心大模型 生成的文章摘要

这篇文章主要介绍了中国智源研

打开网易新闻 查看精彩图片

近日,国际顶级学术期刊《自然》(Nature)正刊封面迎来一项来自中国的人工智能突破性成果——智源研究院研发的多模态大模型Emu3,以“通过预测下一个词元进行多模态学习”的核心研究,成为我国科研机构主导的大模型成果中首个登上该刊正刊封面的案例。据悉,该研究成果于1月28日在线上线,预计2月12日正式刊发纸质版,不仅证明了“预测下一个词元”范式可统一处理文本、图像、视频三大模态,更以单一Transformer架构实现了多模态“大一统”,其后续迭代版本Emu3.5更具备物理世界模拟能力,为通用人工智能(AGI)奠定坚实理论基础,标志着中国多模态大模型研究正式跻身国际第一梯队,打破了国际顶尖AI研究的格局。

自2018年以来,“预测下一个词元”(Next-token prediction,NTP)的自回归路线凭借ChatGPT等突破性成果,彻底改变了语言大模型的发展轨迹,开启了生成式人工智能的浪潮,也引发了全球关于通用人工智能早期迹象的广泛讨论。但长期以来,这一高效范式的潜力始终局限于语言领域,多模态模型的发展则陷入“分治”困境——图像生成依赖扩散模型、视觉语言理解依赖CLIP与大语言模型的组合架构,不同模态采用截然不同的技术路线,导致模型设计复杂、训练成本高昂,且难以实现多任务性能的协同提升,“自回归路线能否成为多模态学习的通用路线”成为困扰全球AI科研界的未解之谜。

智源研究院团队的Emu3模型,正是针对这一核心难题的颠覆性突破。不同于传统多模态模型的“组合式”设计,Emu3采用“单Transformer + 纯下一个词元预测”的极简思路,将文本、图像、视频三大模态统一离散化到同一个表示空间中,从零开始在多模态序列混合数据上进行联合训练,无需依赖扩散模型、对比学习等专门路线,仅通过单一Transformer架构,就实现了多模态生成与感知任务的端到端统一。《自然》编辑对该成果给予高度评价,认为Emu3仅基于“预测下一个词元”,便实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线的成熟模型相当,对构建可扩展、统一的多模态智能系统具有里程碑式的重要意义。

作为这项创新范式的核心支撑,Emu3的技术设计展现出极强的简洁性与高效性。研究团队研发了一款稳定且通用的视觉分词器(tokenizer),可将连续的图像、视频信号高效转换为离散词元,与文本词元实现统一编码——该分词器能够将512×512图像或4×512×512视频片段编码为4096个离散词元,同时具备时空增强、多分辨率适配等特性,在720×720分辨率下的视频重建质量优异,PSNR达24.30、SSIM达0.771。在模型架构上,Emu3沿用大语言模型的解码器架构,仅针对多模态场景进行少量适配,通过RMSNorm归一化、GQA注意力机制等优化,平衡了性能与计算效率,无需为不同模态设计专用分支,真正实现了“大一统”的架构设计。