这个AI模型砍掉87.5%专家，性能只掉1%

全栈遛狗员

2026-05-17 03:19 ·北京

艾伦人工智能研究所和加州大学伯克利分校的研究人员搞了个叫EMO的模型，专门治MoE架构的一个老毛病：模型太大，内存吃紧，但你没法只加载一部分来用。

MoE现在挺常见的，DeepSeek-V4、Qwen3.5都在用。原理不复杂：每个token只激活少数几个专家，参数能堆到几千亿，计算成本却不会爆炸。但问题是，完整模型得全塞进内存里——同一个任务里不同token会调用不同专家，你想只做数学或编程？没门，整套模型都得留着。

为啥会这样？论文里说，标准MoE的专家学的是些表层语言模式。它们对介词、标点、冠词这些有反应，而不是数学、代码这种高层领域。你想切一块有用的出来？切不动。

EMO的解法挺巧妙：用文档边界当训练信号。不用像BTX或FlexOlmo那样预先把数据分好类，而是利用一个简单事实——同一份文档里的token通常属于同一领域。EMO强制一份文档里的所有token从同一个专家池里挑激活对象。具体做法是，把文档内所有token的路由偏好平均一下，保留选得最频繁的那些专家。

训练稳定性需要两个调整。第一，负载均衡不再按批次局部计算，而是跨多份文档全局算。否则两个目标会打架：一个要把同文档token捆在一起，另一个要把token摊到尽可能多的专家上。第二，训练时随机变化文档池的大小，让模型学会在推理时应对不同规模的专家子集。

效果很夸张。模型砍掉四分之三的专家，性能只掉约一个百分点。按论文说法，甚至能压到12.5%的专家，性能损失依然很小。这意味着存储空间大幅节省，而且你能精确控制模型覆盖哪些内容领域——只留医学专家，或者只留政治专家，随你挑。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴