浪潮信息与5月28日重磅发布“源2.0-M32”开源大模型,旨在追求更高效的智能涌现。该模型在继承了“源2.0”系列成果的基础上,前瞻性引入了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中,性能媲美700亿参数的LLaMA3开源大模型。
在传统的MoE模型中,尽管通过多个专家模型的协同工作提升了模型的泛化能力,但它们在专家调度策略上存在局限。特别是在选择两个或多个专家参与计算时,传统门控网络往往忽略了专家之间的协同性,导致模型精度和效率受限。
源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。此外,源2.0-M32采用源2.0-2B为基础模型,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。
在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。
在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大的训练环境提供了一种高性能的训练方法。
在大模型的发展进程中,浪潮信息始终未曾停止上下求索的步伐。未来,浪潮信息将持续致力于算法和模型架构的创新与优化,不断降低模型在预训练、微调和推理等核心应用场景中的算力门槛,并通过精心设计模型和优化训练流程,提升模型的运算效率,推动产业智能化的快速发展,让大模型深度赋能千行百业。
热门跟贴