ACL 2026｜块越大，推理越差？扩散语言模型的新难题被T*破解了|实验|并行性|序列|推理|论文|语言模型

本文第一作者夏翰宸为上海科学智能研究院研究员，主要研究方向有Agentic RL和多模态扩散语言模型。共同一作是上海科学智能研究院主任研究员陈保友，通讯作者是复旦大学教授、上海科学智能研究院AI科学家、上海创智学院全时导师朱思语。

扩散语言模型想用更大的生成块换取更高并行度，却常常先丢掉数学推理，直接在大块模型上做强化训练甚至会出现训练崩塌。

本文中，来自上海科学智能研究院等机构的研究者提出T*，给出一套「先小后大」的课程：先在小块上学稳去噪轨迹，再逐级扩展到 B=8、16、32。4B 模型在 B=8 的 MATH500 设置下，相较原始 SDAR checkpoint 从 60.73 提升到 76.00。

论文标题：T*: Progressive Block Scaling for Masked Diffusion Language Models Through Trajectory Aware Reinforcement Learning
论文链接：https://arxiv.org/pdf/2602.09375

扩散语言模型的两难：块越大，并行潜力越高，推理也越脆弱

今天的大语言模型大多采用自回归生成：每次前向计算确定一个新 token，再继续生成下一个。它的因果顺序清晰，但天然带有串行瓶颈。

掩码扩散语言模型走的是另一条路线。模型先面对一段仍包含多个掩码位置的序列，再通过多轮去噪逐步确定答案。采用分块扩散时，块大小 B 决定了每一块中有多少 token 可以共同更新。块越大，模型在一次前向中同时定稿多个 token 的空间越大；但模型同时面对的未决位置也更多，条件信息更弱，去噪决策更难。

这一矛盾在强化学习阶段被进一步放大。论文分析认为，大块设置会带来置信度更低、噪声更大的 rollout；当同一个优势信号被分配给更多 token 时，策略更新更容易发生概率漂移，最终出现训练崩塌。

论文的 1.7B 实验给出了一个直观例子：直接应用 TraceRL 时，MATH500 准确率在 B=8 阶段由约 56% 快速跌入 40% 出头，在 B=16 阶段末又跌至约 30%；T* 的曲线则在连续扩块过程中保持相对稳定。

图 1｜扩块训练过程中的 MATH500 验证准确率。蓝线为 T*，绿色虚线为直接 TraceRL；纵向虚线对应 B=4→8→16 的阶段切换。

核心方法：T * 先把「小步」走稳，再逐级放大生成块

T* 的核心并不是增加一个更复杂的模型模块，而是重新安排强化学习的难度顺序。

它从一个由自回归模型初始化、已经具备推理能力的小块扩散模型出发。在固定块大小 B 的每个阶段，模型先用 TraceRL 重新适配当前的去噪轨迹；完成规定的更新步数后，再把块大小扩大为原来的两倍。

实验中的典型路径是：B=4 → B=8 → B=16 → B=32。

实验结果：T * 在大块设置更稳定

论文在 SDAR-1.7B-Chat 和 SDAR-4B-Chat 上进行实验，评测覆盖 MATH500、GSM8K 和 AIME24，统一报告 Pass@3。对照组包括原始 SDAR checkpoint，以及在同一目标块大小上直接应用 TraceRL 的模型。

经过 T* 训练，SDAR-4B-Chat, B=8 在 MATH500 上达到 76.00%，相比原始模型提升15.27%，相比直接 TraceRL 提升13.90%。在 GSM8K 和 AIME24 上，也取得了更高结果。

在更大的 B=32 设置下，1.7B 模型仍能看到一致趋势：T* 的 MATH500 准确率为 59.00，超过原始模型的准确率 54.20 和 TraceRL 的 54.10；GSM8K 则由原始模型的 78.31 提升至82.00。

图 2｜不同模型规模和块大小下的性能。黑色为原始模型，绿色为直接 TraceRL，蓝色为 T*。

推理能力提高后，并行性并没有被「换回」自回归

一个自然疑问是：T* 会不会只是让扩散模型重新退回逐 token、从左到右的生成方式，从而换回准确率？

论文使用TPF（tokens per forward）衡量每次模型前向平均能定稿多少个输出 token。自回归模型为 1.0；分块扩散模型可以在同一块内并行确定多个 token，因此 TPF 越高，说明块内并行性越强。

在 1.7B 模型上，T* 的 TPF 随块大小从 B=8 的2.95，提升到 B=16 的3.38，再到 B=32 的3.80。

表 1｜去噪顺序、准确率与 TPF。LocalStrict 越接近 1.0，生成顺序越接近严格从左到右。

论文还报告，对于原始 SDAR-1.7B，从 B=8 扩到 B=16 和 B=32，TPF 分别提高约 16% 和 29%；在固定输出长度下，对应所需前向次数约减少 14% 和 22%。T* 和 TraceRL 并没有消除这一随块大小增加的并行性趋势。

论文进一步使用 LocalStrict 衡量去噪顺序与标准从左到右顺序的接近程度。严格自回归顺序的 LocalStrict 为 1；数值越低，表示模型保留了更多非单调的掩码更新。T* 在 B=8、16、32 下的 LocalStrict 分别为 0.854、0.804 和 0.730，并未回到 1。以 B=32 为例，T* 在 LocalStrict=0.730、TPF=3.80 的同时取得 59.0 的 MATH500 准确率。这说明准确率改善不能简单解释为 “模型重新变成自回归”，而是策略在目标块大小下形成了另一种 token 定稿顺序。