本文作者来自复旦大学、上海交通大学和上海人工智能实验室。一作江书洋为复旦大学和实验室联培博士生,目前是实验室见习研究员,师从上海交通大学人工智能学院的王钰教授和张娅教授。
以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即过度思考(overthinking) :即便模型已得出正确答案,其推理过程中仍反复出现「wait...」「let me check...」「alternatively...」等自我修正与回溯性表达,造成大量冗余计算,带来大量无意义计算开销。
这一现象已引起学术界与工业界的广泛关注。一种直观的解决策略是引入「对长推理的惩罚机制」,即在强化学习训练过程中加入对过长推理序列的长度惩罚奖励项,以促使模型生成更为简洁的推理路径。
然而,实际操作中面临显著困难:若加重惩罚力度,模型倾向于省略必要的推理步骤,导致性能显著下降;若减轻惩罚力度,冗余推理依旧存在,效率难以提升。因此,推理效率与性能之间难以实现有效平衡。
在这篇 ICLR 2026 的 Oral 论文中,来自复旦大学、上海交通大学和上海人工智能实验室的研究团队首次从理论层面系统揭示了「长度惩罚」策略的根本局限性,并基于此提出了一套全新的训练框架 DECS,在五项域内基准和两项域外基准测试中,均实现了推理长度减少超过 50% 的显著成效,同时模型准确率不降反升。
- 论文地址:https://openreview.net/forum?id=kdeiRledV6
- 项目地址:https://pixas.github.io/decs-iclr26-site/
长度惩罚为何总是「误伤好人」?
研究团队对当前主流强化学习框架(如 GRPO)中的序列长度惩罚机制进行了一次深入的理论分析,相关证明可详见论文原文,结论揭示了两个此前从未被系统性指出的致命缺陷:
缺陷一:对高熵探索 token 的无差别攻击。模型在推理过程中生成的「wait」「however」「alternatively」等高熵 token,本质上是逻辑衔接的「状态转移」,是找到正确答案所必需的探索行为。然而序列级的长度惩罚不区分 token 类型,一条正确的长推理链上的所有 token 都会均匀地收到负面梯度信号。当训练数据中简单题占多数、且各题回答长度差异大时,这种对高熵 token 的压制会不断累积,最终导致模型丧失探索能力,过早收敛到次优策略。
缺陷二:对局部冗余的「变相奖励」。团队引入了一个极为关键的概念 ——必要推理前缀(Necessary Reasoning Prefix, NRP) ,即从推理开始到首次得出正确答案所需的最短 token 序列。在 NRP 之后多出来的所有 token,本质上都是冗余。然而,现有的序列级奖励机制中,一条已经包含了 NRP 的较短回答,其 NRP 之后的冗余 token 可能仍然会收到正奖励,因为整条序列在组内相对较短。这种「奖励冗余」的信号严重扭曲了优化方向,让模型学不会在该停的时候停下来。
图 1 序列长度惩罚的两个副作用
DECS:一次「解耦」如何根治过度思考
基于上述两个理论发现,DECS 从两个维度对训练过程进行了精准重构:
第一步:解耦 token 级奖励,精准识别并惩罚冗余。
团队训练了一个轻量级的 NRP 检测器(judge model),用于定位推理链中从起始到第一个包含正确答案的「块」之间的所有 token。一旦确定了 NRP 的边界,DECS 就会对奖励函数进行「解耦」:NRP 范围内的必要推理 token 永远不受惩罚;而 NRP 之后出现的每一个冗余推理 token,都会恒定为负奖励。
通过解耦必要 token 和冗余 token,算法确保了模型只被禁止「画蛇添足」,而非在推理的每一步都进行无效思考,但并不影响模型通过反思和多样化推理推导得到正确答案。
第二步:课程式批次调度,保护探索能力不受伤。
惩罚冗余虽然直接,但也存在一个隐忧:在训练早期,惩罚信号可能无意中波及到那些看似冗余、实为探索的高熵 token。DECS 的做法是动态调整训练 batch 中简单题的比例:当模型当前的平均 NRP 占比较低(即冗余还比较多)时,就少放简单题;随着训练推进、冗余逐步减少,再逐渐提高简单题的比重。
这套课程数据调度策略本质上是一个缓冲机制,在确保冗余被充分压缩的同时,给模型留出充足的探索空间,避免「一刀切」式的惩罚扼杀了推理的多样性。
图 2 DECS 训练示意图
实验验证:多个数据集推理长度砍半,性能反升
实验覆盖了 DeepSeek-R1-Distill-1.5B、7B 以及 Qwen3-4B 三个主流基座模型,在 AIME2024/2025、MATH500、GPQA-Diamond、LiveCodeBench-v6 等七个数学、科学与编程基准上进行了系统评估。
结果令人瞩目:在 1.5B 模型上,DECS 将平均推理 token 数量削减了57.17%,而 Pass@1 准确率反而提升了2.48 个百分点;在更成熟的 7B 模型上,尽管模型本身的过度思考程度较轻,DECS 依然砍掉了49.50%的思考 token,同时带来0.8 个百分点的准确率增益。在与 ThinkPrune、TLMRE、LC-R1 等主流基线方法的对比中,DECS 在效率 - 性能综合指标(AES score)上分别以0.12 和 0.14的优势显著领先。
更关键的是跨域泛化能力:DECS 的 NRP 检测器仅使用数学语料训练,但其效率优势却强有力地迁移到了科学推理(GPQA-Diamond,56.33%token 缩减)和编程任务(LiveCodeBench-v6,33.52%token 缩减)上。
这验证了一个更深层的洞见 ——过度思考是一个跨领域的系统性现象,而 DECS 的机制足够本质,可以无差别地将模型从冗余推理中解放。
表 1 DECS 性能对比
消融实验进一步验证了两个核心组件的互补关系:去掉课程式调度,模型在压缩推理的同时出现了显著的性能退化,印证了文章中揭示的探索抑制问题;而单独去掉解耦奖励,模型仍然残留约25%的冗余 token,佐证了序列级奖励无法消除全部冗余的结论。
图 3 消融实验对比:解耦奖励和课程调度都至关重要
意义与启示
DECS 这项工作的核心价值,并不在于其几乎无损的压缩指标本身,而在于它所提出的问题以及从理论视角证明的结论。
当前,业界普遍聚焦于「如何让模型更善于思考」,却鲜有研究从系统性与理论层面回答两个更为根本的问题:「什么不值得思考?」以及「何时应当停止思考?」。
DECS 通过严谨的理论分析与扎实的实验验证,证明了高效推理的真正瓶颈并非模型的能力边界,而在于训练目标的精妙设计。
对于那些正受困于推理大模型高昂成本与延迟的部署者而言,DECS 提供了一套无需牺牲精度、完全开源的技术方案,相关代码已开源于 GitHub。
同时,DECS 入选 ICLR 2026 Oral 的认可也进一步印证:要从根本上缓解「过度思考」问题,优化必须回归奖励函数的本质,从策略梯度的底层机制入手,在源头消除冗余推理 token。
热门跟贴