MIT何恺明团队发布了新语言模型 ELF(Embedded Language Flows)。他们绕开了目前的自回归架构,把自己在视觉领域最拿手的扩散模型直接用在了文本生成上。具体做法是:把整个生成过程塞进连续的向量空间,直到最后一步才把数据还原成离散 token。
打开网易新闻 查看精彩图片
图像像素能平滑变色,天生适合扩散模型去噪。但文字不行,词与词之间是断开的,「猫」和「狗」之间没有任何中间地带。为了填平这个鸿沟,以前的文本扩散模型做得很拧巴:要么在去噪时每一步都强行去查词表,要么在模型外面再挂一个独立的解码器。ELF 彻底切断了这种纠缠:中间全不管,让模型安安心心在连续空间里算去噪,只在最后一刻用同一套网络把向量转回文字。
这条路不仅走通了,而且极度省数据。在 OpenWebText 评测中,105M 参数的 ELF-B 仅用32步采样,困惑度(Gen. PPL)就压到了约24.1,优于多款基线模型。更重要的是,它只消耗了约45B 训练 token,而同级别对手通常需要500B 以上,训练量直接砍掉九成。这个结果证明,语言天生的离散性并没有堵死连续扩散这条路。
一旦这种思路成熟,未来的大模型有望彻底摆脱只能「从左到右、单向蹦字」的架构束缚。
热门跟贴