艾伦人工智能研究所和加州大学伯克利分校的研究人员搞了个叫EMO的模型,专门治MoE架构的一个老毛病:模型太大,内存吃紧,但你没法只加载一部分来用。

MoE现在挺常见的,DeepSeek-V4、Qwen3.5都在用。原理不复杂:每个token只激活少数几个专家,参数能堆到几千亿,计算成本却不会爆炸。但问题是,完整模型得全塞进内存里——同一个任务里不同token调用不同专家,你想只做数学或编程?没门,整套模型都得留着。

打开网易新闻 查看精彩图片

为啥会这样?论文里说,标准MoE的专家学的是些表层语言模式。它们对介词、标点、冠词这些有反应,而不是数学、代码这种高层领域。你想切一块有用的出来?切不动。

EMO的解法挺巧妙:用文档边界当训练信号。不用像BTX或FlexOlmo那样预先把数据分好类,而是利用一个简单事实——同一份文档里的token通常属于同一领域。EMO强制一份文档里的所有token从同一个专家池里挑激活对象。具体做法是,把文档内所有token的路由偏好平均一下,保留选得最频繁的那些专家。

训练稳定性需要两个调整。第一,负载均衡不再按批次局部计算,而是跨多份文档全局算。否则两个目标会打架:一个要把同文档token捆在一起,另一个要把token摊到尽可能多的专家上。第二,训练时随机变化文档池的大小,让模型学会在推理时应对不同规模的专家子集

效果很夸张。模型砍掉四分之三的专家,性能只掉约一个百分点。按论文说法,甚至能压到12.5%的专家,性能损失依然很小。这意味着存储空间大幅节省,而且你能精确控制模型覆盖哪些内容领域——只留医学专家,或者只留政治专家,随你挑。