MIT何恺明打破GPT垄断，新语言模型ELF：仅45B训练量碾压同级基线

知识圈

2026-05-13 21:22 ·北京 ·网易号优质内容创作者

MIT何恺明团队发布了新语言模型 ELF（Embedded Language Flows）。他们绕开了目前的自回归架构，把自己在视觉领域最拿手的扩散模型直接用在了文本生成上。具体做法是：把整个生成过程塞进连续的向量空间，直到最后一步才把数据还原成离散 token。

图像像素能平滑变色，天生适合扩散模型去噪。但文字不行，词与词之间是断开的，「猫」和「狗」之间没有任何中间地带。为了填平这个鸿沟，以前的文本扩散模型做得很拧巴：要么在去噪时每一步都强行去查词表，要么在模型外面再挂一个独立的解码器。ELF 彻底切断了这种纠缠：中间全不管，让模型安安心心在连续空间里算去噪，只在最后一刻用同一套网络把向量转回文字。

这条路不仅走通了，而且极度省数据。在 OpenWebText 评测中，105M 参数的 ELF-B 仅用32步采样，困惑度（Gen. PPL）就压到了约24.1，优于多款基线模型。更重要的是，它只消耗了约45B 训练 token，而同级别对手通常需要500B 以上，训练量直接砍掉九成。这个结果证明，语言天生的离散性并没有堵死连续扩散这条路。

一旦这种思路成熟，未来的大模型有望彻底摆脱只能「从左到右、单向蹦字」的架构束缚。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴