松果财经讯,面壁智能近日发布了一款基于全新稀疏-线性混合架构(SALA)的9B参数规模模型,在提升推理效率与降低计算成本方面取得重要突破。
打开网易新闻 查看精彩图片
SALA架构的核心在于将稀疏激活机制与线性变换路径进行有机融合。与传统密集模型在每次推理时激活全部参数不同,SALA通过动态路由策略,仅为特定输入激活部分专家模块,大幅降低了计算开销。与此同时,模型中引入的线性计算路径能够高效处理通用特征,与稀疏专家模块形成协同。
面壁智能团队表示,这一设计使得9B模型在实际推理时的激活参数量仅相当于3B级别模型,却保持了接近甚至超越同规模密集模型的性能表现。在语言理解、代码生成与长文本处理等多项评测中,SALA-9B展现出优异的精度-效率平衡。
热门跟贴