打开网易新闻 查看精彩图片

主要作者团队:Yuxin Chen 现为伊利诺伊大学厄巴纳 - 香槟分校(UIUC)硕士一年级学生,Chumeng Liang 为 UIUC 博士一年级学生,Hangke Sui 为 UIUC 博士二年级学生,Ge Liu 为 UIUC 计算机系助理教授。Liu Lab 团队长期聚焦扩散 / 流模型方向,已产出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多项代表性研究成果。

打开网易新闻 查看精彩图片

  • 论文标题:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
  • 论文链接:https://arxiv.org/abs/2604.11748
  • github:https://github.com/nealchen2003/LangFlow
  • huggingface:https://huggingface.co/papers/2604.11748

“在图像视频领域统治的连续扩散模型,为何在文本上迟迟无法突破壁垒,甚至被迫走向‘模仿自回归’的妥协之路?”

当前扩散语言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。为逼近 AR,主流研究转向离散扩散,却陷入并行解码困境,逐渐丧失了低延迟与多模态等原生潜力。

面对路线分歧,UIUC Ge Liu 团队发布新作《LangFlow: Continuous Flow Matching for Large Language Models》,彻底回归最传统的连续扩散架构。研究指出,连续扩散在文本上的受挫并非先天缺陷,而是受限于训练与评估策略。经过系统性优化,LangFlow 首次让连续扩散在标准基准上追平离散扩散。

这项工作不仅打破了文本生成的离散壁垒,更证明了保留 Diffusion 原生特性的连续架构 “同样能打”,为探索低延迟、高可控的多模态统一架构,重新打通了一条被长期忽视的底层路线。

语言模型的发展方向

当今大语言模型(不论是 ChatGPT 还是 DeepSeek)的基础是自回归(Autoregressive, AR)架构,也就是常说的 “预测下个词元”。虽然 AR 架构已经取得了巨大的成功,但有几个本质性的天花板难以突破:

1)推理延迟。 AR 架构每次推理只预测下一个词元,这意味着:

推理延迟 = 推理步数 × 单步延迟 = 输出词元数 × 单步延迟.

对于 AR 模型来说,单步延迟主要受限于从显存中读取之前的内容(KV 缓存)。所以,每读一次 KV 缓存只计算一个新词元是很浪费的。

2)可控性。 AR 架构主要兼容使用提示词的控制方式。提示词与其它信息处于同等地位,因此 AR 受制于指令失效的问题。

3)模态局限性。 AR 架构主要用于预测离散模态,生成图像、视频、空间位置、机器人动作等连续模态则需要搭载扩散生成头,不利于架构统一。

扩散语言模型简史

近年来,主流思想认为,扩散语言模型越像自回归,表现就越好。而最经典的连续扩散,一般认为存在先天劣势;但这一偏见正在逐渐被打破

打开网易新闻 查看精彩图片

随着 Stable Diffusion 等先进生成模型的发布,Diffusion 在图像和视频生成中确立了统治地位。2022-2023 年,大家自然想把它迁到文本上,以期解决以上三个问题:

1)低延迟。 Diffusion 可以蒸馏成一步生成模型(如 Consistency Model),读一次 KV 缓存同时输出多个词元,大幅降低推理延迟。

2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技术,可以强化指令跟随的质量。

3)多模态。 Diffusion 已经是连续模态的主流范式,若将离散模态连续化,则可以统一架构,同时不会损失任何信息,反之则不然。

尽管上述愿景富有吸引力,但早期的实验结果并不理想,且随着模型规模的扩大,性能差距愈发明显。例如,参数量扩展至 1B 的连续扩散模型 Plaid,其性能仅与 100M 参数的 AR Transformer 相当。而 Diffusion-LM 等模型甚至难以在无条件情况下生成通顺句子。

传统扩散模型在语言任务上的局限性,促使研究社区转向一种 “离散 Diffusion”,也就是从初态(全 [MASK] 或者词表中均匀随机)出发,每步以一个小概率替换部分词元。2024 年,离散 Diffusion 取得了显著进展,尤其是初始为全 [MASK] 态的 Masked Diffusion 家族最为突出,把与 AR 的 PPL 差距缩到 10 以内。近期的里程碑是 Block Diffusion,它把数据每 4–32 个 token 分一块,块内是 MDLM,块间是 AR,PPL 只比 AR 差 3 左右。

截至 2025 年中,DLM 的演进路线是很明确的:

(连续)Diffusion → 离散 Diffusion → Masked Diffusion → Block Diffusion

趋势十分清晰:Diffusion 越像 AR,性能就越接近 AR。这逐渐成为工业界的共识:在扩展 DLM 规模时,工业界普遍采用 Block Diffusion,平均每次推理能预测接下来 32 个词元中的 4 个。这其实与 DeepSeek-V3 的多词元预测(multi-token prediction)技术不谋而合。

然而,Masked Diffusion 在逼近 AR 性能的同时,也弱化了 Diffusion 的特色,牺牲了以上三个核心潜力中的两个:推理延迟与多模态能力。

(连续)Diffusion 之所以能蒸馏为一步,是因为其概率流 ODE 形式下(注:DDIM 的连续时间版本,每步不注入噪声,等价于一般意义下的 Flow Matching),每个随机初态确定性地对应一个终点。然而,Masked Diffusion 初始为单一的全 [MASK] 态,通过逐步注入随机性,才能生成多种不同的结果;如果一步同时解码多个 token,其间的对应关系是捕捉不到的。因此,Masked Diffusion 深陷并行解码困境(parallel decoding dilemma),也就是随着生成步数的减少,多种可能的目标句交叉混叠,质量不可避免地走向崩溃,如下图:

打开网易新闻 查看精彩图片

Masked Diffusion 的得失引出一个核心问题:如果 Diffusion 必须依赖模仿 AR 才能提升性能,其作为独立语言模型架构的独特价值便有待商榷了。

连续扩散模型的回归

2025 年,前沿研究开始重新审视这一路线,尝试回归多初始态架构,以保留 Diffusion 的核心特性。代表作 Duo 改进了基于均匀随机噪声的离散 Diffusion,虽然在 OpenWebText 上未能超过 Masked Diffusion,但在少步蒸馏后仍保持生成质量,并采用专为离散 Diffusion 设计的引导机制。近期研究甚至表明,在 GSM8K(数学基准)的扩大规模测试中,Duo 击败了 Masked Diffusion 和 AR。这表明模仿 AR 并非提升扩散模型性能的唯一路径。

在最新工作 LangFlow 中,研究团队比 Duo 更彻底地回归 —— 直接回到最传统的 Diffusion。该研究证明:早期连续 DLM 的表现不佳并非源于架构的先天缺陷,而是受限于训练策略与评估方法。经优化后,同样在 GPT-2-small 规模下,连续 Diffusion 追平了离散 Diffusion,甚至可与 AR 相当。具体来说,该团队发布的模型 LangFlow,在 7 个零样本迁移测试中,有 3 个超过 AR。

下文说明具体做法。

更有效的训练:

刻画连续扩散的信息熵

Embedding 空间上的 Diffusion

研究团队采用了embedding 空间上的 diffusion 框架。模型输入带噪的 embedding,预测干净 token 的概率分布,然后以封闭形式算出 diffusion 的去噪目标。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

噪声的 Schedule

优化噪声 schedule 是提升 DLM 性能的关键。与图像不同的是,研究团队发现:DLM 必须偏重极高噪声区,才能学得有效信息。

1、标准噪声 Scheduler 的局限

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2、让 Schedule 匹配信息增量

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3、信息量服从 Gumbel 分布

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

更精准的测试:还原连续扩散的实力

关键指标解释

根据以往的 DLM 工作,该研究沿用以下两项指标(都是越低越好):

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Self-Conditioning

研究团队通过对比实验指出:关闭 Self-Conditioning 的对比对连续 DLM 是不公平的。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

ODE 生成的 PPL 估计

研究团队还注意到:之前的工作的变分上界不适用于 LangFlow 所用的 ODE 生成。

准确的 PPL 度量是公平比较的前提。AR 逐词元计算似然;离散扩散用变分推导一个上界。在本研究中,团队为 LangFlow 的 ODE 生成路径推导了一个更适配的 NLL 上界,按序列长度平均并取指数后即为 PPL:

打开网易新闻 查看精彩图片

这个上界由三部分构成:第一项是从噪声中抽取轨迹起点的 NLL;第二项是 ODE 对概率密度的压缩或膨胀;第三项是从轨迹终点还原 token 的 NLL。最后的一项,是以上三项中的常数项相互抵消剩下的总和。

这个界完全适配 LangFlow 的 ODE 生成,为连续 DLM 的 PPL 评估提供了更可靠的理论基础。

多项基准全面追平:

语言建模与零样本迁移均进入第一梯队

连续扩散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整体匹敌离散扩散,并取得扩散模型中最强的零样本迁移表现。

研究团队在 LM1B(句子级)和 OpenWebText(OWT,类似 GPT-2 语料)上评估 LangFlow。模型都是 130M 参数的双向 DiT,训练 1M 步。

语言建模

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在 LM1B 上,LangFlow 生成 PPL 达 91.8,优于最强离散 DLM(Duo 97.6)6 分以上。测试集 PPL(31.7)超过所有均匀随机噪声的离散 DLM,与 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)与 MDLM(23.2)差距仅在 1 左右。这是连续 DLM 首次在标准语言建模基准上追平离散 DLM。

零样本迁移

在 7 个 零样本迁移测试中,LangFlow 在 3 个上超过 AR 基线,在 4 个上超过 MDLM。尤其在 Pubmed 和 Arxiv(充满结构化、专业术语)上,LangFlow 相对 AR 优势显著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不仅放大了离散扩散对 AR 的相对优势,还在其弱势项目上补齐了短板。

总结:走向多架构协同的下一代语言模型

LangFlow 证明了连续 DLM 完全具备在标准基准上打平离散 DLM 的基础能力。然而,Diffusion 的长期价值并不在于与 AR 进行零和博弈,而在于作为 AR 架构的关键补充。在低延迟解码、细粒度指令控制以及原生多模态融合等 AR 存在固有局限的领域,连续 Diffusion 展现出了不可替代的天然优势。

未来的语言模型发展趋势正指向多种架构优势互补的组合,而非单一范式的垄断。与其将 Diffusion 强行 “改造” 成 AR 的离散生成模式,不如彻底释放其连续架构的原生潜力。

LangFlow 完整保留了扩散模型的核心特性,不仅为连续 DLM 的后续扩展提供了坚实的基线,更为构建下一代低延迟、高可控、多模态共生的 AI 基础设施确立了重要的底层路线。