主要作者团队:Yuxin Chen 现为伊利诺伊大学厄巴纳 - 香槟分校(UIUC)硕士一年级学生,Chumeng Liang 为 UIUC 博士一年级学生,Hangke Sui 为 UIUC 博士二年级学生,Ge Liu 为 UIUC 计算机系助理教授。Liu Lab 团队长期聚焦扩散 / 流模型方向,已产出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多项代表性研究成果。
- 论文标题:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
- 论文链接:https://arxiv.org/abs/2604.11748
- github:https://github.com/nealchen2003/LangFlow
- huggingface:https://huggingface.co/papers/2604.11748
“在图像视频领域统治的连续扩散模型,为何在文本上迟迟无法突破壁垒,甚至被迫走向‘模仿自回归’的妥协之路?”
当前扩散语言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。为逼近 AR,主流研究转向离散扩散,却陷入并行解码困境,逐渐丧失了低延迟与多模态等原生潜力。
面对路线分歧,UIUC Ge Liu 团队发布新作《LangFlow: Continuous Flow Matching for Large Language Models》,彻底回归最传统的连续扩散架构。研究指出,连续扩散在文本上的受挫并非先天缺陷,而是受限于训练与评估策略。经过系统性优化,LangFlow 首次让连续扩散在标准基准上追平离散扩散。
这项工作不仅打破了文本生成的离散壁垒,更证明了保留 Diffusion 原生特性的连续架构 “同样能打”,为探索低延迟、高可控的多模态统一架构,重新打通了一条被长期忽视的底层路线。
语言模型的发展方向
当今大语言模型(不论是 ChatGPT 还是 DeepSeek)的基础是自回归(Autoregressive, AR)架构,也就是常说的 “预测下个词元”。虽然 AR 架构已经取得了巨大的成功,但有几个本质性的天花板难以突破:
1)推理延迟。 AR 架构每次推理只预测下一个词元,这意味着:
推理延迟 = 推理步数 × 单步延迟 = 输出词元数 × 单步延迟.
对于 AR 模型来说,单步延迟主要受限于从显存中读取之前的内容(KV 缓存)。所以,每读一次 KV 缓存只计算一个新词元是很浪费的。
2)可控性。 AR 架构主要兼容使用提示词的控制方式。提示词与其它信息处于同等地位,因此 AR 受制于指令失效的问题。
3)模态局限性。 AR 架构主要用于预测离散模态,生成图像、视频、空间位置、机器人动作等连续模态则需要搭载扩散生成头,不利于架构统一。
扩散语言模型简史
近年来,主流思想认为,扩散语言模型越像自回归,表现就越好。而最经典的连续扩散,一般认为存在先天劣势;但这一偏见正在逐渐被打破。
随着 Stable Diffusion 等先进生成模型的发布,Diffusion 在图像和视频生成中确立了统治地位。2022-2023 年,大家自然想把它迁到文本上,以期解决以上三个问题:
1)低延迟。 Diffusion 可以蒸馏成一步生成模型(如 Consistency Model),读一次 KV 缓存同时输出多个词元,大幅降低推理延迟。
2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技术,可以强化指令跟随的质量。
3)多模态。 Diffusion 已经是连续模态的主流范式,若将离散模态连续化,则可以统一架构,同时不会损失任何信息,反之则不然。
尽管上述愿景富有吸引力,但早期的实验结果并不理想,且随着模型规模的扩大,性能差距愈发明显。例如,参数量扩展至 1B 的连续扩散模型 Plaid,其性能仅与 100M 参数的 AR Transformer 相当。而 Diffusion-LM 等模型甚至难以在无条件情况下生成通顺句子。
传统扩散模型在语言任务上的局限性,促使研究社区转向一种 “离散 Diffusion”,也就是从初态(全 [MASK] 或者词表中均匀随机)出发,每步以一个小概率替换部分词元。2024 年,离散 Diffusion 取得了显著进展,尤其是初始为全 [MASK] 态的 Masked Diffusion 家族最为突出,把与 AR 的 PPL 差距缩到 10 以内。近期的里程碑是 Block Diffusion,它把数据每 4–32 个 token 分一块,块内是 MDLM,块间是 AR,PPL 只比 AR 差 3 左右。
截至 2025 年中,DLM 的演进路线是很明确的:
(连续)Diffusion → 离散 Diffusion → Masked Diffusion → Block Diffusion
趋势十分清晰:Diffusion 越像 AR,性能就越接近 AR。这逐渐成为工业界的共识:在扩展 DLM 规模时,工业界普遍采用 Block Diffusion,平均每次推理能预测接下来 32 个词元中的 4 个。这其实与 DeepSeek-V3 的多词元预测(multi-token prediction)技术不谋而合。
然而,Masked Diffusion 在逼近 AR 性能的同时,也弱化了 Diffusion 的特色,牺牲了以上三个核心潜力中的两个:推理延迟与多模态能力。
(连续)Diffusion 之所以能蒸馏为一步,是因为其概率流 ODE 形式下(注:DDIM 的连续时间版本,每步不注入噪声,等价于一般意义下的 Flow Matching),每个随机初态确定性地对应一个终点。然而,Masked Diffusion 初始为单一的全 [MASK] 态,通过逐步注入随机性,才能生成多种不同的结果;如果一步同时解码多个 token,其间的对应关系是捕捉不到的。因此,Masked Diffusion 深陷并行解码困境(parallel decoding dilemma),也就是随着生成步数的减少,多种可能的目标句交叉混叠,质量不可避免地走向崩溃,如下图:
Masked Diffusion 的得失引出一个核心问题:如果 Diffusion 必须依赖模仿 AR 才能提升性能,其作为独立语言模型架构的独特价值便有待商榷了。
连续扩散模型的回归
2025 年,前沿研究开始重新审视这一路线,尝试回归多初始态架构,以保留 Diffusion 的核心特性。代表作 Duo 改进了基于均匀随机噪声的离散 Diffusion,虽然在 OpenWebText 上未能超过 Masked Diffusion,但在少步蒸馏后仍保持生成质量,并采用专为离散 Diffusion 设计的引导机制。近期研究甚至表明,在 GSM8K(数学基准)的扩大规模测试中,Duo 击败了 Masked Diffusion 和 AR。这表明模仿 AR 并非提升扩散模型性能的唯一路径。
在最新工作 LangFlow 中,研究团队比 Duo 更彻底地回归 —— 直接回到最传统的 Diffusion。该研究证明:早期连续 DLM 的表现不佳并非源于架构的先天缺陷,而是受限于训练策略与评估方法。经优化后,同样在 GPT-2-small 规模下,连续 Diffusion 追平了离散 Diffusion,甚至可与 AR 相当。具体来说,该团队发布的模型 LangFlow,在 7 个零样本迁移测试中,有 3 个超过 AR。
下文说明具体做法。
更有效的训练:
刻画连续扩散的信息熵
Embedding 空间上的 Diffusion
研究团队采用了embedding 空间上的 diffusion 框架。模型输入带噪的 embedding,预测干净 token 的概率分布,然后以封闭形式算出 diffusion 的去噪目标。
噪声的 Schedule
优化噪声 schedule 是提升 DLM 性能的关键。与图像不同的是,研究团队发现:DLM 必须偏重极高噪声区,才能学得有效信息。
1、标准噪声 Scheduler 的局限
2、让 Schedule 匹配信息增量
3、信息量服从 Gumbel 分布
更精准的测试:还原连续扩散的实力
关键指标解释
根据以往的 DLM 工作,该研究沿用以下两项指标(都是越低越好):
Self-Conditioning
研究团队通过对比实验指出:关闭 Self-Conditioning 的对比对连续 DLM 是不公平的。
ODE 生成的 PPL 估计
研究团队还注意到:之前的工作的变分上界不适用于 LangFlow 所用的 ODE 生成。
准确的 PPL 度量是公平比较的前提。AR 逐词元计算似然;离散扩散用变分推导一个上界。在本研究中,团队为 LangFlow 的 ODE 生成路径推导了一个更适配的 NLL 上界,按序列长度平均并取指数后即为 PPL:
这个上界由三部分构成:第一项是从噪声中抽取轨迹起点的 NLL;第二项是 ODE 对概率密度的压缩或膨胀;第三项是从轨迹终点还原 token 的 NLL。最后的一项,是以上三项中的常数项相互抵消剩下的总和。
这个界完全适配 LangFlow 的 ODE 生成,为连续 DLM 的 PPL 评估提供了更可靠的理论基础。
多项基准全面追平:
语言建模与零样本迁移均进入第一梯队
连续扩散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整体匹敌离散扩散,并取得扩散模型中最强的零样本迁移表现。
研究团队在 LM1B(句子级)和 OpenWebText(OWT,类似 GPT-2 语料)上评估 LangFlow。模型都是 130M 参数的双向 DiT,训练 1M 步。
语言建模
在 LM1B 上,LangFlow 生成 PPL 达 91.8,优于最强离散 DLM(Duo 97.6)6 分以上。测试集 PPL(31.7)超过所有均匀随机噪声的离散 DLM,与 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)与 MDLM(23.2)差距仅在 1 左右。这是连续 DLM 首次在标准语言建模基准上追平离散 DLM。
零样本迁移
在 7 个 零样本迁移测试中,LangFlow 在 3 个上超过 AR 基线,在 4 个上超过 MDLM。尤其在 Pubmed 和 Arxiv(充满结构化、专业术语)上,LangFlow 相对 AR 优势显著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不仅放大了离散扩散对 AR 的相对优势,还在其弱势项目上补齐了短板。
总结:走向多架构协同的下一代语言模型
LangFlow 证明了连续 DLM 完全具备在标准基准上打平离散 DLM 的基础能力。然而,Diffusion 的长期价值并不在于与 AR 进行零和博弈,而在于作为 AR 架构的关键补充。在低延迟解码、细粒度指令控制以及原生多模态融合等 AR 存在固有局限的领域,连续 Diffusion 展现出了不可替代的天然优势。
未来的语言模型发展趋势正指向多种架构优势互补的组合,而非单一范式的垄断。与其将 Diffusion 强行 “改造” 成 AR 的离散生成模式,不如彻底释放其连续架构的原生潜力。
LangFlow 完整保留了扩散模型的核心特性,不仅为连续 DLM 的后续扩展提供了坚实的基线,更为构建下一代低延迟、高可控、多模态共生的 AI 基础设施确立了重要的底层路线。
热门跟贴