打开网易新闻 查看精彩图片

本文第一作者夏翰宸为上海科学智能研究院研究员,主要研究方向有Agentic RL和多模态扩散语言模型。共同一作是上海科学智能研究院主任研究员陈保友,通讯作者是复旦大学教授、上海科学智能研究院AI科学家、上海创智学院全时导师朱思语。

扩散语言模型想用更大的生成块换取更高并行度,却常常先丢掉数学推理,直接在大块模型上做强化训练甚至会出现训练崩塌。

本文中,来自上海科学智能研究院等机构的研究者提出T*,给出一套「先小后大」的课程:先在小块上学稳去噪轨迹,再逐级扩展到 B=8、16、32。4B 模型在 B=8 的 MATH500 设置下,相较原始 SDAR checkpoint 从 60.73 提升到 76.00。

打开网易新闻 查看精彩图片

  • 论文标题:T*: Progressive Block Scaling for Masked Diffusion Language Models Through Trajectory Aware Reinforcement Learning
  • 论文链接:https://arxiv.org/pdf/2602.09375

扩散语言模型的两难:块越大,并行潜力越高,推理也越脆弱

今天的大语言模型大多采用自回归生成:每次前向计算确定一个新 token,再继续生成下一个。它的因果顺序清晰,但天然带有串行瓶颈。

掩码扩散语言模型走的是另一条路线。模型先面对一段仍包含多个掩码位置的序列,再通过多轮去噪逐步确定答案。采用分块扩散时,块大小 B 决定了每一块中有多少 token 可以共同更新。块越大,模型在一次前向中同时定稿多个 token 的空间越大;但模型同时面对的未决位置也更多,条件信息更弱,去噪决策更难。

这一矛盾在强化学习阶段被进一步放大。论文分析认为,大块设置会带来置信度更低、噪声更大的 rollout;当同一个优势信号被分配给更多 token 时,策略更新更容易发生概率漂移,最终出现训练崩塌。

论文的 1.7B 实验给出了一个直观例子:直接应用 TraceRL 时,MATH500 准确率在 B=8 阶段由约 56% 快速跌入 40% 出头,在 B=16 阶段末又跌至约 30%;T* 的曲线则在连续扩块过程中保持相对稳定。

打开网易新闻 查看精彩图片

图 1|扩块训练过程中的 MATH500 验证准确率。蓝线为 T*,绿色虚线为直接 TraceRL;纵向虚线对应 B=4→8→16 的阶段切换。

核心方法:T * 先把「小步」走稳,再逐级放大生成块

T* 的核心并不是增加一个更复杂的模型模块,而是重新安排强化学习的难度顺序。

它从一个由自回归模型初始化、已经具备推理能力的小块扩散模型出发。在固定块大小 B 的每个阶段,模型先用 TraceRL 重新适配当前的去噪轨迹;完成规定的更新步数后,再把块大小扩大为原来的两倍。

实验中的典型路径是:B=4 → B=8 → B=16 → B=32。

实验结果:T * 在大块设置更稳定

论文在 SDAR-1.7B-Chat 和 SDAR-4B-Chat 上进行实验,评测覆盖 MATH500、GSM8K 和 AIME24,统一报告 Pass@3。对照组包括原始 SDAR checkpoint,以及在同一目标块大小上直接应用 TraceRL 的模型。

经过 T* 训练,SDAR-4B-Chat, B=8 在 MATH500 上达到 76.00%,相比原始模型提升15.27%,相比直接 TraceRL 提升13.90%。在 GSM8K 和 AIME24 上,也取得了更高结果。

在更大的 B=32 设置下,1.7B 模型仍能看到一致趋势:T* 的 MATH500 准确率为 59.00,超过原始模型的准确率 54.20 和 TraceRL 的 54.10;GSM8K 则由原始模型的 78.31 提升至82.00。

打开网易新闻 查看精彩图片

图 2|不同模型规模和块大小下的性能。黑色为原始模型,绿色为直接 TraceRL,蓝色为 T*。

推理能力提高后,并行性并没有被「换回」自回归

一个自然疑问是:T* 会不会只是让扩散模型重新退回逐 token、从左到右的生成方式,从而换回准确率?

论文使用TPF(tokens per forward)衡量每次模型前向平均能定稿多少个输出 token。自回归模型为 1.0;分块扩散模型可以在同一块内并行确定多个 token,因此 TPF 越高,说明块内并行性越强。

在 1.7B 模型上,T* 的 TPF 随块大小从 B=8 的2.95,提升到 B=16 的3.38,再到 B=32 的3.80。

打开网易新闻 查看精彩图片

表 1|去噪顺序、准确率与 TPF。LocalStrict 越接近 1.0,生成顺序越接近严格从左到右。

论文还报告,对于原始 SDAR-1.7B,从 B=8 扩到 B=16 和 B=32,TPF 分别提高约 16% 和 29%;在固定输出长度下,对应所需前向次数约减少 14% 和 22%。T* 和 TraceRL 并没有消除这一随块大小增加的并行性趋势。

论文进一步使用 LocalStrict 衡量去噪顺序与标准从左到右顺序的接近程度。严格自回归顺序的 LocalStrict 为 1;数值越低,表示模型保留了更多非单调的掩码更新。T* 在 B=8、16、32 下的 LocalStrict 分别为 0.854、0.804 和 0.730,并未回到 1。以 B=32 为例,T* 在 LocalStrict=0.730、TPF=3.80 的同时取得 59.0 的 MATH500 准确率。这说明准确率改善不能简单解释为 “模型重新变成自回归”,而是策略在目标块大小下形成了另一种 token 定稿顺序。

打开网易新闻 查看精彩图片

图 4|TraceRL 与 T* 的 token 首次解掩码步骤。颜色越深,代表该 token 越晚定稿;两种方法均保留非单调更新,但在目标块大小下学到的调度不同。

上图结果也提供了一个更具研究意味的观察:除在外部显式构造树搜索、图搜索等推理脚手架外,强化学习还可能直接重塑模型内部的 token 定稿顺序。论文将其视为一条互补方向,而不是对现有搜索式推理方法的替代。

【ICML 2026首尔 · 云帆AI Talent Meetup】最后报名中

7月9日晚,首尔ICML会场旁,上海人工智能实验室、上海科技大学、上海创智学院、阶跃星辰、Sharpa Robotics等20余家上海顶尖AI单位现场设展,开放100+岗位。专场招聘、学术分享、圆桌交流、自由Networking一站式搞定。

扫码即刻报名。