本文一作为中国人民大学高瓴人工智能学院博士生谭文辉,师从宋睿华长聘副教授,研究方向为大模型推理与交互,预计 2027 年毕业。谭文辉在读期间以第一作者身份在 ICLR、NeurIPS、ICML、CVPR 等会议共发表六篇论文,并获得过 MMM 2025 Best Paper。
近一年,大型推理模型(Large Reasoning Models,LRMs)在数学竞赛、代码生成、科学问答等高难度任务上取得了令人印象深刻的进展。
从 OpenAI o1、DeepSeek-R1 到 Qwen3、MiMo,这一轮提升主要归功于两大引擎:(1)让模型在 标签里进行长链路的思考;(2)用以 GRPO 为代表的强化学习(RL)算法进行后训练,把 pass@1 (平均正确率)推上去。
然而,pass@1 提高的同时,一个反常的现象正在出现:把解码时的采样温度调高,模型的 pass@n (多次尝试的上限正确率)不再随之改善,有时甚至更差。这意味着:模型在单次采样里更加「自信」,但在多次尝试中「探索」新解的能力却坍缩了。对于代码生成、定理证明、数学竞赛等「只要采到一次正解就判对」的任务,这种坍缩直接拉低了模型的真实能力上限。
在最新被 ICML 2026 接收的工作中,来自中国人民大学高瓴人工智能学院、小米 MiLM Plus 等单位的研究团队提出了Latent Exploration Decoding(LED)。这是一种无需任何额外训练的解码策略,它从 LRM 内部的中间层恢复被 RL 压扁的熵,将探索从最后一层重新搬到潜在空间。在 5 个模型与 6 个推理基准上,LED 一致地把 pass@1 与 pass@16 平均提升了 0.61 与 1.03 个百分点,并且把 GRPO 的 rollout 也变得更高效。
- 论文标题:Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models
- 作者列表:Wenhui Tan,Fiorenzo Parascandolo,Enver Sangineto,Jianzhong Ju,Zhenbo Luo,Qian Cao,Rita Cucchiara,Ruihua Song,Jian Luan
- 论文链接:https://arxiv.org/pdf/2602.01698
- 代码链接:https://github.com/AlbertTan404/LED
下图为 Qwen3-4B-Thinking 在 AIME 2025 数据集上使用常规解码(CoT)与本文提出的 LED 的案例研究。
一、问题发现:最后一层熵被 RL 后训练压扁
在相对更早的一代 LLM 上,调高采样温度几乎是改善多次采样表现核心方法。从 0.1 到 0.6,模型在解码时更愿意探索其他可能性,pass@n 顺势升高。研究团队用了一个简单的指标来量化这种行为,叫作accuracy-temperature slope (alpha):把 pass@1 到 pass@16 在不同温度下的准确率拟合成一个平面,平面沿温度方向的斜率就是 alpha。alpha 越大,说明提高温度对模型探索的正向激励越高。
在 QwQ-32B、DeepSeek-R1-Distill-Llama-8B(早期思考模型)以及 Qwen3-4B-Instruct (非思考模型)上,alpha 都是正数。但到了最近一代 LRMs 上,alpha 开始接近零,甚至变成负数:在 Qwen3-4B-Thinking、Qwen3-30B-A3B-Thinking、MiMo-7B-RL 上,提高温度并不能更高的 pass@n。
团队从广泛使用的 RL 后训练算法 GRPO 出发给出了一个机制性的解释:GRPO 在一个 group 内只奖励「整段输出是否正确」这一稀疏信号,于是真正承担学习压力的是少数分枝 token,也就是那些一旦选错、整条推理就跑偏的关键位置。RL 反复把 token 预测概率推向「成功分支」,最终把这几个关键位置的分布压成接近 one-hot 的尖峰,即「熵坍缩」。因此,在这些模型上调高温度本质上只是 「把一座单峰的高山变扁平」,并不会重新长出第二座山,即可能的另一条探索路径。
二、关键观察:熵保留在中间层
如果最后一层输出已经坍缩了,模型还有探索能力吗?团队把视线转向了 LLM 内部。
得益于 Transformer 的层间残差连接,每一层的隐状态都可以直接通过 LM-Head 得到一组词表分布,即 LLM 早退 (early exit)。研究团队系统统计了 LRMs 各层早退后的分布熵,发现了一个非常清晰的趋势:早期与中间层保留着相当高的熵,而进入末几层,熵急剧下降,到最后一层几乎收敛到 0。
这意味着,模型在中间层还没「拿定主意」,候选词之间的概率分布相对平缓。也就是说,RL 虽然把最后一层压扁了,但其算法本身对中间层的影响是间接的,所以这些中间层就像一片仍然蕴含「不确定性」的熵矿,是探索得以重启的入口。
这一观察回答了「温度为什么不灵」的问题:温度仅作用在最后一层已坍缩的分布上,无论怎么放缩,也补不回已经丢失的概率质量。要恢复探索,就必须把目光移到中间层。
三、提出方法:聚合中间层早退概率
LED 的核心很朴素:在解码时,把中间层的分布也算进来,构造出一个最具探索价值的分布来采样。但要让这件事真正可用,团队解决了三个具体问题。
第一,避免在词表噪声里探索。
中间层虽然熵高,但很多概率质量其实分布在与上下文无关的稀有词上,直接采样会让模型胡言乱语。研究团队对每一层的词表分布做了一项 top-k 覆盖率分析:把最后一层 top-k 的候选词固定下来,看每一层中间分布给这些候选词分配了多少概率。结果显示,最后一层的 top-1 概率往往超过 90%,top-2 超过 99%,几乎是 one-hot;而中间层在这些候选上的覆盖率则平滑地从低到高过渡。LED 由此得到一个干净的设计:只在「最后一层认可」的 top-k 候选词上做探索,避免引入无意义的词,也保证了最终生成的连贯性。
第二,跨层信息聚合。
直觉做法是给每一层一个权重做加权平均,但这要面对模型大小、深度差异等导致的超参敏感问题。LED 选择了一种没有超参的方式:从最后一层向更浅的层做累加(cumulative sum),每加进一层就得到一种聚合分布;然后对每一种聚合分布计算熵,挑出熵最高的那一种作为最终的「探索分布」。这相当于让模型自己决定使用多深的潜在变量来拿到最有价值的探索信号,整个流程没有手工调参。
第三,平衡探索 - 利用。
推理过程中并不是每一步都需要探索:很多 token 是高度确定的(比如标点符号),强行进行探索化反而会破坏推理。LED 用一个简单直接的方法解决这个问题:最后一层 top-1 的概率本身就是模型的「自信度」。若 top-1 概率非常高,说明此处该走「利用」路线,直接按常规解码;若 top-1 概率相对比较低,说明此处是分支点,启用潜在探索分布去采样。这一判据无须设阈值,也同样没有引入没有超参数。
更进一步,LED 把这套机制限定在思考阶段。论文统计了 LRM 在思考与回答两段的行为,发现思考阶段消耗了超过 90% 的 token、熵也明显更高。而进入回答阶段后,模型应当跟随已经形成的思路,不再适合「再探索一条路」。LED 在回答阶段自动退化为常规解码,避免对最终答案造成扰动。
整套方法不需要任何额外训练、几乎不引入额外超参数,开销只是把最后几层(论文中默认 d=8,后续试验证明 LED 对该超参数不敏感)的隐状态多送进一次 LM-Head,配合一次累加和一次熵的比较。在 8×H100 、上下文 16K、批大小 128 的高并发场景下,LED 的吞吐量仍能保持常规解码的 91.8% 左右,远高于基线方法 DoLa 与 SoftThinking。
四、实验效果:pass@k 稳定提升
研究团队在 6 个标准基准上做了系统评估,涵盖数学(GSM8K、MATH-500、AIME 2024、AIME 2025)、科学(GPQA-Diamond)和代码(LiveCodeBench v5),并选取了从 4B 到 32B、覆盖稠密和 MoE 架构的 5 个模型:Qwen3-4B-Thinking、MiMo-7B-RL、Qwen3-30B-A3B-Thinking、QwQ-32B 与 DeepSeek-R1-Distill-Llama-8B(后两个模型为早期推理模型,实验结果在论文附录)。
在三种 LRM 上,LED 把 pass@1 平均从 77.4 提到 78.0,把 pass@16 平均从 88.8 提到 89.7;和 DoLa、SoftThinking、SoftThinking-Gumbel 这些强基线相比,LED 在 pass@1 与 pass@16 上几乎全部领先,并且生成长度不增反持平(在 Qwen3-4B-Thinking 上是 12,269 vs 12,277 token),这意味着提升不是靠推理开销换来的。
更直接体现 LED 价值的是温度曲线。前文那张 alpha 由正变负的图,在加上 LED 之后被反向扳了回来:对所有最新一代 LRM,alpha 重新变成了正数。低温度下不掉点,高温度下重新拿到收益,温度调参又一次成为可用的探索方式。
消融实验进一步说明了几个关键设计:去掉「只在思考阶段探索」,pass@1 会掉 0.58 个点;去掉「利用」分支,完全交给探索,pass@1 会暴跌约 14.7 个点,同时生成长度膨胀 33%;去掉 top-k 过滤,模型会陷入死循环,几乎全部撞到上下文极限。在不同探索深度 d 下(也是 LED 引入的唯一超参数),LED 均能助力模型提升 pass@k,证明 LED 并不依赖超参调优。
五、为什么需要探索:把 LED 放进 RL 训练
LED 增强探索能力的动机并不只在测试阶段成立。现有的在线强化学习算法,比如 GRPO 训练本身就需要在每一步用模型自己生成多条轨迹再打分;如果生成阶段就缺乏探索,那么 advantage 信号也会收敛到很小的值。
研究团队把 LED 直接接进了 GRPO 的生成环节,在 Qwen3-4B-Thinking 与 MATH-lighteval 数据上对比常规 rollout。结果显示,用 LED 做 rollout 训练出来的模型,即便在测试时切回常规解码,准确率也从 41.99 提升到 43.10。这样的结果显示 LED 不只是让某次推理更高效地探索,它还帮助模型学到了更好的策略。如果训练和测试都用 LED,最终精度可以达到 45.44。一个有趣的效果是:因为 LED 更高效的探索能力,整次 GRPO 平均生成长度降低了 10%,训练时间也从 4.87 小时降到 4.44 小时。这一结果表明 LED 不仅是一种推理侧的解码补丁,也是在线 RL 训练阶段的一种探索增强机制。
六、总结
LED 从两个方向展开了研究:
- 发现现象:RL post-training 把 LRM 的最后一层熵压扁了,让调高温度这种最直观的增强探索的手段失效;
- 找到机制:这种熵其实没有消失,它被推到了中间层。只要把潜在分布从中间层调出来、做合适的过滤与聚合,就能把探索能力还给模型,而无需任何额外训练。
LED 没有引入新参数、改变模型架构、或是让模型多出大量计算开销,却在 5 个模型、 6 个基准上稳定地提升了 pass@16(同时保持或提升 pass@1),并让采样温度重新发挥其应有的作用。
热门跟贴