别再让大模型“想太多”！最新研究揭示 LLM 推理效率的关键瓶颈|推理|新论文|神经网络|算法

一、前言：LLM 推理很强，

但 “想多想少” 一直是个问题

近年来，大语言模型在数学推理、指令跟随、智能规划等任务上取得了惊人的进展，展现出 “会思考” 的强大能力。然而，当这些模型真正走向落地部署时，一个越来越现实的问题逐渐浮出水面：推理的计算成本正在失控。

在很多看似简单的问题上，模型常常 “想太多”—— 生成冗长、发散的推理链条，反复兜圈，却并没有带来更好的答案。这种现象被我们称为过度思考（Overthinking）

而在真正复杂、需要精细推理的问题上，模型又可能因为推理预算受限而匆忙作答，关键步骤一带而过，导致答案错误，这正是思考不足（Underthinking）

现有的主流做法，往往是通过统一缩短推理 token 上限来 “节省算力”。这种方法虽然简单直接，却相当于在不知道题目难度的情况下强行缩短考试时间：确实能防止模型无限 “胡思乱想”，但代价是 —— 在真正需要深度思考的问题上，准确率明显下降，尤其是在复杂推理任务中表现得尤为突出。

问题的本质并不在于算力多少，而在于算力用在了哪里。

论文标题：Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models
论文链接：https://arxiv.org/abs/2505.16122
代码链接：https://github.com/junhongmit/P-and-B

二、核心洞察：

推理失衡（Reasoning Miscalibration）才是根源

为弄清楚问题究竟出在哪里，研究团队系统分析了多种主流推理模型（DeepSeek R1, QwQ, OpenAI o4-mini 等）在不同推理任务中的行为模式，并提出了一个统一而关键的观察：

大语言模型在推理阶段普遍存在一种 “推理失衡（Reasoning Miscalibration）” 现象 —— 模型投入的计算资源，往往与问题在不同推理阶段的真实难度并不匹配。

具体来说，模型常常在不那么关键的步骤上反复思考，而在真正决定成败的关键步骤上却一带而过。这种 “该多想的地方没多想、不该多想的地方反而想太久” 的现象，正是导致过度思考与思考不足并存的根本原因。

进一步分析发现，这种推理失衡与模型在推理过程中不确定性的动态变化密切相关：

在推理的早期阶段，模型往往面临更高的认知不确定性（例如需要判断整体思路、选择解题路径），这些步骤对最终答案影响巨大，值得投入更多计算资源；
而随着推理逐步展开，许多后续步骤其实已经较为确定，此时继续生成冗长的推理文本，往往边际收益迅速下降，甚至可能引入新的错误。

这一发现揭示了一个重要事实：

推理效率的关键，不在于总共用了多少 token，而在于这些 token 被用在了哪一步。

也正是在这一洞察之上，论文进一步提出了如何 “按需分配” 推理计算的理论模型与算法框架。

三、理论突破：

BAM—— 不确定性驱动的计算分配模型

既然问题出在推理阶段的算力分配失衡，一个自然的想法是：

我们能不能像考试一样，更合理地分配 “思考时间”？

1）一个直观的考试类比

想象你在做一道综合大题。在一开始，你往往会花不少时间去：

理解题目在问什么
分析条件之间的关系
构思整体解题思路

这个阶段充满不确定性，如果没想清楚，后面算得再快也可能全错。但一旦

每一步都很确定
再花太多时间，收益其实不大

这正是推理过程中不确定性变化的真实写照。

2）BAM 的核心思想：用 “不确定性” 指导算力分配

基于这一观察，论文提出了BAM（Budget Allocation Model），将一次 LLM 推理看成由多个子问题（sub-questions）组成的过程，并用一个关键概念来指导预算分配 ——认知不确定性（epistemic uncertainty）。认知不确定性刻画的是：

“在这一步，多想一点，是否真的能让模型理解得更清楚？”

在理论上，我们借鉴了神经网络缩放定律的思想，用一个简洁的模型来描述token 数量与不确定性降低之间的关系

这个公式可以直观地理解为：

bij 表示分配给某个子问题的推理 token（也就是思考时间）
分配的 token 越多，不确定性确实会下降
但下降速度会越来越慢，存在明显的边际收益递减

也就是说，前几个 token 非常 “值钱”，而后面的 token 往往越来越 “划不来”。这正是为什么简单地拉长推理链条，并不能无限提升推理效果。

3）在总预算有限的情况下，token 应该怎么分？

有了上述建模，BAM 进一步提出了一个明确的问题：在总推理预算有限的前提下，如何把 token 分配给不同的子问题，才能让整体推理最有效？

通过优化整体不确定性，论文推导出了一个最优预算分配原则：

这条公式背后的含义，其实非常 “人性化”：推理预算应该更多分配给那些一开始不确定性高、但又确实能通过思考被有效消除的步骤。

回到考试的类比：

分值高、靠想能拿分的题 —— 值得多花时间
已经很确定的计算步骤 —— 快速完成即可
怎么想也想不明白的题 —— 及时止损，避免浪费时间

BAM 的核心思想可以用一句话概括：

像考试分配答题时间一样，把推理算力用在 “想明白思路” 的阶段，而不是平均或盲目地拉长整个推理过程。

四、Plan-and-Budget：

让理论真正落地的推理框架

基于 BAM 的理论原则，研究团队进一步提出了Plan-and-Budget—— 一个完全在推理阶段运行、无需任何训练或微调的通用推理框架。它的目标很明确：在不改变模型本身的前提下，让推理算力用在最关键的地方。

整个框架可以概括为两个步骤：先规划，再分配。

① Plan：先把 “大题” 拆清楚

在推理开始前，Plan-and-Budget 会先对原始问题进行一次高层次的规划（planning），将复杂问题拆解为一系列结构化的子问题。

这一步的作用并不是让模型 “想得更长”，而是想得更有方向

明确每一步在整体推理中的角色
避免在无关分支上反复探索
把 “思考路径” 从一开始就理顺

直观来说，这相当于考试时先写草稿、定解题思路，而不是一上来就开始乱算。

② Budget：把 token 用在 “最值钱” 的步骤上

在完成规划之后，Plan-and-Budget并不会给每个子问题平均分配推理 token，而是采用一种前置衰减（decay-based）的预算分配策略（当然，也支持按照问题类型灵活采用其他预算分配策略）。

这种策略的核心思想是：

推理早期步骤不确定性更高，对最终答案影响更大
推理后期步骤往往更确定，继续长篇推理的边际收益较低

因此，框架会：

在前几个关键子问题上分配更多 token
随着推理推进，逐步减少每一步的推理预算

这正是在实践中对 BAM 最优分配原则的一种近似实现。

五、实验结果：

不仅更准，还更 “算得值”

前面的理论和算法，最终都要回到一个现实问题：

Plan-and-Budget 到底有没有在 “省算力” 的同时，真正提升推理质量？

1）先看一个直观对比：不同难度题目的表现

下图展示了在 TravelPlanner 任务中，不同方法在简单 / 中等 / 困难三种问题难度下的通过率（Pass Rate）对比：

这张图里有一个非常值得注意的现象：

Global Budget（全局限制 token）在所有难度上都明显降低了通过率 —— 尤其是在中等和困难问题上，性能下降最为明显
这说明：单纯缩短推理过程，确实会 “省 token”，但往往是以牺牲正确性为代价的

相比之下，Plan-and-Budget 在三个难度级别上都取得了最高的通过率

简单问题：避免了无意义的 “过度思考”
中等问题：在关键步骤上给足思考空间
困难问题：显著优于全局 budget 方法，体现出结构化推理的优势

2）关键不只在 “对不对”，还在 “花了多少 token”

更重要的是，Plan-and-Budget 的提升并不是靠 “多用算力” 换来的。从图例中可以看到：

在通过率更高的同时，Plan-and-Budget 的平均 token 使用量反而更低
这说明：结构化规划 + 局部预算分配，真的把算力用在了最关键的地方

也正是因为这个原因，论文认为：仅用准确率或 token 数量来评价推理方法，都是不够全面的。

3）E³ 指标：把 “准确” 和 “高效” 统一到一个量里

为更客观地衡量推理方法在真实部署中的价值，论文提出了E³（Efficiency-aware Effectiveness Score）指标。E³ 的设计初衷非常简单：奖励 “用更少的 token，得到同样甚至更好答案” 的方法，惩罚 “靠牺牲准确率或盲目堆算力” 的策略。

在 E³ 指标下，一些 “强行限制推理长度、但正确率明显下降” 的方法会自然处于劣势；而像 Plan-and-Budget 这样，在保持甚至提升准确率的同时降低计算成本的方法，则会被清晰地凸显出来。

4）结果总结：为什么这些数字很重要？

综合多种推理任务（数学推理 Mathematical Reasoning，指令理解与执行 Instruction Following，以及规划与决策推理 Agentic Planning）和模型规模，Plan-and-Budget 带来了非常稳定的收益：

最高+70%的准确率提升
最高−39%的 token 使用量减少
E³ 指标最高提升193.8%

这些结果共同表明：Plan-and-Budget 并不是 “算得少一点”，而是 “算得更聪明”。

六、意义与展望：

推理不该是 “算力堆出来的”

随着大语言模型规模不断扩大，推理能力的提升似乎越来越依赖于 “多用一点算力”。然而，这项工作传递了一个不同的信号：推理效果的关键，并不只在于算力多少，而在于算力是否被合理使用。

Plan-and-Budget 从 “推理失衡” 这一普遍但长期被忽视的问题出发，通过不确定性视角建立理论模型，并进一步将其落地为一个无需训练、仅在推理阶段运行的通用框架。实验结果表明，合理的推理规划与预算分配，能够在多种任务和模型上同时提升准确率与计算效率，甚至让中等规模模型在效率上逼近更大模型。

更重要的是，这项研究提出了一种新的推理范式：从 “推理长度” 转向 “推理价值”，从 “算得更多” 转向 “算得更聪明”。

在未来，随着 LLM 被部署到越来越多对成本、时延和稳定性要求严格的真实场景中，这种 “按需推理” 的思想，或将成为高效、可控智能系统的重要基础。

当模型学会 “什么时候该多想，什么时候该收手”，

推理，才真正开始变得成熟。

作者信息：

Junhong Lin（林俊宏），麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）博士研究生，研究方向包括大语言模型推理、图神经网络与知识图谱。其成果发表于 ICLR、ICML、NeurIPS、KDD、ICAIF 等国际顶级会议，并获得 ACM KDD Best Paper Award 与 ICAIF Best Paper Honorary Mention。研究聚焦于提升大模型在推理效率与可靠性方面的理论建模与系统实践。

Xinyue Zeng (曾欣悦), Virginia Tech VLOG lab 二年级 PhD，研究方向包括大语言模型推理稳定性和可靠性，相关成果发表于 ICML，ICLR，ICDM 等等国际顶级会议。目前致力于构建可解释、可部署的 LLM 评估与推理方法。将于今年暑假以研究实习生的身份加入微软研究院实习。