5月22日消息,浪潮信息旗下YuanLab.ai团队宣布正式开源发布多模态基础大模型Yuan3.0 Ultra。据介绍,作为该系列面向万亿参数规模打造的旗舰模型,Yuan3.0 Ultra是目前业内少数开源的万亿级多模态大模型之一,旨在为企业级Agent AI提供核心能力支撑。

打开网易新闻 查看精彩图片

图注:Yuan3.0 Ultra在面向企业应用的多模态检索、文本检索、摘要生成、表格理解、工具调用评测中表现

据悉,Yuan3.0 Ultra采用统一多模态模型架构,由视觉编码器、语言主干网络与多模态对齐模块组成。其语言主干基于混合专家(MoE)架构构建,包含103层Transformer。在训练过程中,团队引入了Layer-Adaptive Expert Pruning(LAEP)算法,将模型参数从初始的1515B优化至1010B,激活参数为68.8B。官方数据显示,通过该方法,预训练算力效率提升了49%。此外,模型还引入了局部滤波注意力(LFA)机制,以增强对语义关系的建模能力。

在推理优化方面,Yuan3.0 Ultra采用了反思抑制奖励机制(RIRM)。据了解,该机制通过引入奖励约束,使模型在获得可靠答案后减少无效反思,旨在缓解快思考模式下的“过度思考”现象,在提升模型精度的同时降低推理过程中的Token消耗。

在应用场景上,该模型重点针对企业复杂业务流程进行了优化。据评测数据显示,Yuan3.0 Ultra在多模态文档理解(DocMatix)、检索增强生成(ChatRAG)、复杂表格理解(MMTab)以及Text-to-SQL(Spider)等基准测试中表现突出,具备处理图文混排文档、多级结构表格及跨文档知识检索的能力,可支持构建面向财报分析、合同审阅及业务决策辅助的智能体系统。

目前,Yuan3.0 Ultra的模型权重(含16bit与4bit版本)、技术报告及完整代码已在GitHub、HuggingFace、ModelScope及始智AI等平台开放下载,并支持商业使用。(袁宁)