ICML 2026｜智能体的下半场：为什么「答对」已经不够了？|agent|icml|上下文|新论文|智能体|调用|预训练

过去两年 Agent 研究更像一场工程竞赛 —— 谁的推理链更长、谁的工具箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活，而是把它变成一门科学：不仅问「它 work 不 work？」，更要问「它为什么work」，以及什么时候才应该这么做？」

这篇文章作者团队想聊聊在ICML 2026 提出的Theory of Agent (ToA)—— 以及它如何解释当下最前沿的长上下文、推理模型、工具使用、自进化智能体背后那根共同的主线。

关于这项工作

Theory of Agent (ToA) 是由爱丁堡大学联合普林斯顿大学、UIUC、西北大学、香港中文大学共同提出的智能体统一理论，已被 ICML 2026 以 Position Paper 的形式接收。

项目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/
论文链接: https://arxiv.org/abs/2506.00886.pdf

作者团队覆盖了当前 Agent / LLM 研究的多条主线 —— 从 ReAct 式推理与工具使用，到 RL 对齐、世界模型、科学发现智能体 —— 这份工作也正是这些主线汇聚后的一次尝试：把 Agent 从一套工程技巧，变成一门可以被推理、被证伪、被累积的科学。

一个你肯定见过的场景：两份同样满分的试卷

想象同一套试卷发到两个学生手里。

同学 A 走的是闭卷考试模式。整套题他靠自己：回忆知识点、做推理、验算，必要时在脑子里重新组织一遍 —— 他把考试当成锻炼基础和思维的机会；
同学 B 走的是开卷考试模式。每一道题他都上网查、问 ChatGPT、翻参考答案，直接抄过来就交。

两份卷子批改下来，都是 100 分。老师如果只看分数，这两个人是一样的。但只要你当过老师，或者自己读过书，你就知道这两个人一学期之后的差距会非常大：

同学 A :哪怕中间做错过、绕弯过，每做一题，他那根叫「解题直觉」的东西都在被加粗一次。期末的时候，同样一道题他能更快、更稳地做对，而且能举一反三。
同学 B :他也做了一学期题，但他脑子里的知识存量没有任何变化。到了必须闭卷的那一次考试 —— 或者任何一次没有 ChatGPT 可用的场合 —— 他会突然发现自己什么都不会。

两份满分，两条命运完全相反的成长曲线。

先澄清一个常见误解: 这个故事里绝不是说「同学 A 不会用搜索引擎」或者「用工具是坏事」。恰恰相反 —— A 也可以、也应该在需要的时候用工具 (考试是比喻，真实世界里的 Agent 当然会遇到靠自己无论如何答不出来的题，这时候必须调用外部信息)。
真正的关键是：能靠自己答对的题，就不必为了省事而默认抄答案。工具该在「靠自己不够」的时候上场，而不是在「根本还没试过」的时候就被默认触发。至于「什么叫靠自己不够」「什么叫真正必需」, 正是后面要花篇幅讲清楚的事 —— 作者会把它精确成一个叫知识边界（knowledge boundary) 的东西。>

换到 Agent 身上，这两类行为完全平行：

图 1. 同样正确的答案，背后可能是两种截然不同的资源分配。Agent A 什么都默认靠外部工具，内部推理能力被绕开、无法巩固；Agent B 在内部能解决时就内部解决 —— 但并不排斥在真正需要时使用工具 —— 推理能力在练习中被强化。

这不是一个设计问题。这是一个定义问题：什么叫一个「好」Agent? 如果「好」只意味着「答对」, 那开卷同学和闭卷同学没区别。但如果「好」还意味着「越做越聪明」,我们想要的显然是后者。而这恰恰是目前绝大多数 Agent 训练范式看不见的东西。

当下智能体的四种失败模式，其实是同一个病

过去两年，Agent 系统暴露出了许多彼此看似无关的问题。有些模型在还没真正理解任务时就急于行动，不断切换思路；有些则在简单问题上陷入冗长推理，甚至为「2+3 等于几」生成十几条重复 reasoning path。另一类问题则发生在与外部世界的交互上：模型要么迟迟不愿调用本该使用的工具，要么把原本几步就能完成的操作拆成漫长而重复的轨迹。

这些现象通常被分别归类为 reasoning、planning 或 tool-use 的问题，因此业界也习惯于逐个修补：过度推理就增加长度惩罚，工具滥用就约束 action budget，行动不足就强化工具调用能力。

但如果把这些现象放在同一个视角下，会发现它们其实共享着同一个更底层的结构：Agent 始终在面对一个持续存在的决策 —— 下一步究竟应该继续依赖内部思考，还是转向外部世界获取信息。

不同的失败模式，本质上只是这个决策在不同方向上的失衡。答早了是 underthinking，答晚了是 overthinking，问少了是 underacting，问多了是 overacting。不是四个独立的问题，而是同一个病 —— 在不确定性下的决策错配 —— 以四个方向表现出来。

下半场的工作，不是继续打补丁，而是治这个病。

换一个视角：推理和行动，是一体两面

如果顺着这个问题继续往下推，一个更自然的观察会出现：所谓「推理」和「行动」，未必是两种本质不同的阶段。对于 Agent 来说，它们更像是在不同位置获取信息的两种方式。链式思考、反思和任务分解，本质上是在重新组织模型已经拥有的信息；而搜索、API 调用、代码执行等行为，则是在向外部世界索取模型当前并不具备的信息。

推理和行动，是两种用来降低同一种不确定性 (epistemic uncertainty, 认知不确定性) 的工具。它们的差别只在于信息来源。

内部认知工具 (链式思考、反思、分解)：把 Agent已经有的信息重新组织一遍；
外部物理工具(搜索、API、UI 操作、执行代码)：注入 Agent 没有的信息。

两者都在降低不确定性，只不过一个发生在内部，一个发生在外部，这样智能体的行为轨迹就变成了：

图 2. 左：传统 ReAct 把推理和行动混在一起当做两个阶段。右：ToA 把 Agent 看成一个统一的策略，它在两类工具里做选择 —— 内部认知工具查的是「自己这个世界模型」, 外部物理工具查的是「真实世界」。

眼下，哪种工具能最快降低我对这个任务的不确定性

这也是为什么长上下文、RAG、工具使用、agentic RL 其实都在指向同一件事，沿着「内部还是外部」这一根轴的不同分配。

每个 Agent 都有自己的「会做题」范围

一旦推理和行动平起平坐，研究的核心对象就不再是「策略」, 而是：这个 Agent 靠自己能解决的任务，和需要外部帮助才能解决的任务，边界在哪里？

ToA 把这件事精确化了:

图 3. 左：一个 Agent 的「知识边界」把它能内部解决的任务和剩下的世界任务隔开。中：多个 Agent 都能内部解决的部分 ——「最小任务集」。右：这群 Agent 中任意一个能内部解决的并集 ——「最大任务集」。

最核心的一条：脑力劳动的「总量守恒」

而这个总和和策略无关。我们可以把努力从内部挪到外部，也可以反过来，但总量是定的。类似于我们刚开始举的那个例子，学生 A 和学生 B 就是在使用不同的分配策略去解决同一套试卷。

从这个角度再看工具使用，会发现一个容易被忽略的事实：外部工具并不会真正消除任务本身的信息负担。它们只是把原本需要由模型内部完成的认知过程，转移到了外部系统上。一个复杂问题之所以变得「容易」，很多时候不是因为问题本身被简化了，而是因为求解过程被重新分配了。

用生活比喻：你要做一道红烧肉。

我们可以全靠自己的手艺：选肉、焯水、糖色、火候一手拿捏。这是内部努力拉满。
我们也可以点一份半成品，回家热一下，或者直接点外卖。这是外部努力拉满。
我们还可以用预制菜 + 自己炖十分钟，平衡一下。

Agent 行为的几何：不同点的含义以及最优行为

既然「认知努力」是一个在两个维度间分配的固定预算，那 Agent 的行为就活在一个二维平面上，如下图所示。

图 4. 横轴是内部推理投入，纵轴是外部行动投入。斜线是最小努力前沿 βE_{int}+E_{ext}=E^*。左：任务在内部可解，两种努力可以自由互换；右：任务超出内部能力，外部努力存在一个不可削减的底线。*

图上标了三个关键点:

点 A 的「万能性」恰恰是它的危险。一旦有一个足够能干的外部 Agent 可调用，A 不管任务在边界的哪一侧都能走通。这就是为什么只奖励正确性的训练会自然漂移到左上方的 A 点附近—— 它是通往奖励最省心、最低风险的路径。

用实习生的例子类比：小 A 永远都能「对」。老板只要看答案，他没错。但一年下来，他没有学会任何一道题的内在逻辑 —— 因为他没有给自己「尝试用大脑」的机会。点 A 就是那个「永远搜一下就行」的坑。

等等，那 AC 和 AB 之间呢？

这是一个微妙但非常重要的点。A、B、C不是仅有的三个「正确答案」。

那它们之间有什么区别？——区别不是「优不优」, 而是「偏好不同」。

对内部可解的任务 (线段AC), 内外努力可以自由置换:

延迟敏感的部署，也许更偏A(一次外部调用快、干脆);
安全敏感、或外部调用很贵的部署，更偏C(不要轻易触发现实世界的动作);
成本中性的部署，选个中间点就好。

对外部必需的任务 (线段AB), 外部努力的底线不能砍，但在这条底线之上，同样存在一个偏好谱:

A= 少想、多调；
B= 先把脑子用尽，只调用那个最低限度必需的外部工具。

换句话说，前沿是一整条帕累托最优曲线,A、B、C 只是三个代表性的端点。不同的业务场景 —— 安全、延迟、成本、合规 —— 沿着这条曲线选择不同的位置，都是对的。

那条斜线的斜率 β，到底在说什么？

β 的大小决定了那条斜线的倾角, 也就决定了「帕累托最优前沿」的形状:

β 很大(想很贵、调便宜)：斜线陡，最优点整体偏向多调外部。直觉：既然我这颗大脑昂贵又慢，那能外包就外包。这解释了为什么「小模型 + 强工具链」往往是理性选择 —— 对一个 Llama-3-8B, 让它自己写一堆 CoT 不如直接 RAG 出来给它看。
β 很小(调很贵、想便宜)：斜线缓，最优点整体偏向多靠内部。直觉：每次触碰现实世界都要花钱 / 承担风险，那就能在脑子里解决的就别动手。这解释了为什么推理模型 (o1/R1 那一代)把赌注押在「内部 scaling」上 —— 在它们的成本结构下，多推几步比调一次工具便宜得多。

这就把 ToA 和资源有限理性(resource-bounded rationality) 接上了：没有放之四海皆准的「最佳 Agent 行为」，只有「在当前 β 下最佳的行为」。一条产线上的 Agent 换个部署环境， β 变了，最优的分配策略就应该跟着变。所以 ToA 的「对齐」不是「让 Agent 学会一种固定姿势」, 而是让 Agent 学会识别 β , 并沿着 β 对应的那条前沿去分配努力。

那 ToA 反对的是什么？是 Agent「稀里糊涂地漂到 A」—— 不是因为 β 让 A 是最优解，而是因为只奖励正确性的训练让 A 变成了最省事的惯性选择。同一个 A,被 β 论证过的 A 和被惯性带过来的 A ,在几何上无法区分，但在 Agent 的长期发展上天差地别。对齐意味着有意识地选前沿上的某一点，而不是在训练惯性下默认滑到角落。

捷径的代价：Agent 也会被「惯坏」

ToA 里有一个命题叫Prop 3.9: 委托诱导的能力停滞—— 翻译成大白话：

如果 Agent 系统性地把本可以内部解决的任务也外包出去，它的内部推理能力不会因为经验积累而变强，哪怕它在原理上本可以变强。

这是 Agent 版的「小 A 问题」：他一直在外部工具辅助下答对，从未给自己「自己想想看」的机会，所以他的内部能力原地踏步。看起来今天很能打，十年后还是这个水平。

这其实也是我们观察很多人类实习生、甚至学生的规律 ——有捷径可走时，大脑就不会再去走长路。而大脑从长路走回来的那部分，才是「长本事」的那部分。Agent 的 RL 训练如果只看正确率，就会被这个最可靠的捷径吸引过去，完全复制同样的陷阱。

所以近期那些加「工具使用惩罚」的方法事后看，本质上都在逼近 ToA 说的effort-consistent alignment：既要答对，也要克制。

下半场的训练：四条路同时走，缺一不可

把上面所有内容落到训练，大致是四条互补的路径。每一条单独走都不够,它们各自对付「只求正确」这个病的一个侧面。

1.Agentic Post-training：Next-Tool Prediction

预训练的 next-token 把静态知识压进了参数，但它从没教会 Agent 怎么通过交互去获取新知识。我们主张把预训练延伸到next-tool prediction—— 把交互轨迹本身 (API 调用、UI 动作、环境查询) 变成一等建模目标，和文本并列。学会「在给定上下文下，下一个该用哪个工具」, 就不只是「会推理」, 而是会决定如何降低不确定性。这是一个新的 scaling 维度：不是储存更多知识，而是通过交互获取知识。

2. Agentic SFT：按能力定制的监督

标准 SFT 假设「好的工具使用」有统一标准，在同一套示范上喂所有模型。ToA 说这个假设不成立：对小模型恰当的工具使用，对大模型可能完全是多余—— 反过来也一样。一刀切的监督会让模型系统性地偏向示范者的内部任务集,而不是它自己的。

两条路：(1)按能力定制数据集—— 每个模型有自己的 Q_{int}, 这个干净但贵；(2)选择性求助—— 训练 Agent 只在低 solvability 的上下文下主动外求，近似一个保守的能力上包 Q_{max}, 更通用但精度妥协。

3.Agentic RL：过程，而不只是结果

前面说过，只奖励正确性必然漂向点 A—— 因为委托是「最稳妥得奖」的策略。有效的 agentic RL 必须奖励「怎么答对」，不只是「答对」。OTC-PO是一个具体例子：它明确惩罚不必要的工具调用，把「克制」和「正确」同等对待。更广义地，RL 允许 Agent 学过程级偏好—— 什么时候想、什么时候做、什么时候停 —— 这是只看结果的监督表达不出来的。

团队还设想一个迭代范式RL → SFT → RL：RL 在不确定性下发现对齐轨迹；SFT 把它们压缩成稳定的、可泛化的策略；第二轮 RL 在这个基础上再做一次元认知校准。预训练阶段带 RL (算力充足时) 是另一个有前景的方向。

4.Agentic Prompting：有用，但不够用

Prompt-based 方法 (ReAct 式脚手架、记忆、workflow 抽象) 可以不动参数就引出复杂工具使用行为，对快速迭代非常有用。但它们欠缺对决策质量的系统性评估—— 过度思考和过度行动可以藏在「结果对」下面，根本不会被检出。Prompting 是一个很好的「行为探针」, 但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的主线

四条路的共同点是：提升 Agent 不是让它推理更多或工具更少，而是让它能估计自己的内部可解度，并据此分配努力。后训练教「工具词汇表」；SFT 锚定「和自己能力匹配的基线」；RL 校准「过程级偏好」；prompting 把行为暴露出来好诊断。「对齐」不是一个固定的目标，而是良好校准的决策过程的涌现属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是同一个底层误校准的不同切片。

下半场会吵什么？三个还没解决的问题

未来几年 Agent 研究会围绕下面三个问题反复拉扯 —— 它们都是 ToA 打开的、但没有关上的:

怎么测量 Q_int (m,W)？内部任务集是潜变量，只能估计。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分答案。一个好的内部可解度代理，会立刻成为 alignment 训练的核心零件。
怎么训出真正尊重「努力守恒」的策略？只看结果的 RL 做不到，因为这个不变量对它不可见。给工具使用加惩罚是第一步；更本质的方案 —— 有意识地平衡内外轨迹的课程，然后用 RL 维持这个平衡 —— 还是开放问题。
怎么评估 Agent 的「努力分配」, 而不是只评估「答对率」?当下的 benchmark 只说「答对了没」, 这刚好错过重点。我们需要能区分「靠推理对」和「靠外包对」的 benchmark。没有这样的评估，就没办法判断一个 Agent 到底「变聪明了」, 还是「学会了更熟练地外包」。

一些有意思的讨论

长上下文 vs. RAG, 谁更好？

过去一年，前沿实验室在疯狂卷上下文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的工具链。同时 RAG 派坚持说「检索才是正道」。

在 ToA 下，两边其实在做同一件事，只是方式不同 :

长上下文 = 提前扩展内部 :先把外部信息一股脑灌进来，再让 Agent 纯内部推理 —— 相当于把任务从 Qext 推回 Qint。
RAG = 按需外求 :信息留在外面，需要的时候再去取。

论文里的规范性结论是：在正确性相同的前提下，长上下文通常是更好的分配—— 因为它把 Agent 推向纯内部推理，而纯内部推理正是让能力「沉淀进参数」的那个训练信号。所以长上下文不只是产品体验，它本身就是能力内化的底座。

当然 RAG 不会消失。信息实时变化、规模太大、或者超出模型解析能力时，检索就是 epistemically 正当的选择。关键是，「用哪种」, 本身就该是一个基于认知效率的决策, 不是缺省。

内化和外化：一根一直在动的边界

这可能是 ToA 最实用的一个词汇贡献。一个 Agent 可以拆成两部分:

模型 (Model)：提供参数里的知识、内部推理能力 —— 也就是 Qint 的基础。
脚手架 (Harness)：提供工具、记忆、检索、上下文管理、外部协议 —— 也就是通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个相反的过程里被持续重塑:

内化 (Internalization)：把脚手架提供的能力，吸收进模型本身。算术、结构化查找、某些形式的检索、代码风格的变换 —— 都是典型的「曾经外部，后来搬到参数里去了」的能力。一旦内化成功，一度需要外部工具的任务就滑进了 QintQint——知识边界向外推了一格。ToA 对内化成功给出两个条件：(1)能力本身要可压缩(有结构，能被参数捕获)；(2)训练过程必须至少在某些时候奖励「内部解决」—— 否则梯度信号消失，内化永远不会发生。
外化 (Externalization)：反方向。把能力卸给脚手架 —— 有时候很合理 (实时数据、验证器、具身动作), 有时候只是为了偷懒。按默认外化的问题恰好就是 Prop 3.9: 不是因为能力本质上在外，而是因为当前模型在这里做得不好，于是永远让它做不好。知识边界被冻结在了早期训练状态。

下半场的核心设计问题，不是「模型要多大」, 也不是「脚手架要多丰富」, 而是：怎样让这根边界朝着更高自主性的方向持续移动，同时不被「只求正确」的训练惯性拖回去？

自进化智能体

一个智能体可以被称为「自进化的」, 当且仅当它的内部任务集随时间严格扩张：

但这个扩张「够不够」，取决于它所处的那个世界本身是不是也在动。

也就是说 —— 最终，这个世界里一切能被解决的任务，都能由它自己内部解决。

动态世界：这是一个「速率」问题。但真实世界从来不是静态的。W_t 会随着时间不断冒出新任务 —— 新工具、新接口、新领域、新问题层出不穷。这时候，自进化就不再是「能不能追上」, 而是能不能追得够快。它变成了一个严格的速率条件:

结尾：Agent 不是「答对的机器」，是「越用越聪明的东西」

如果把 Agent 看成一种持续在「内部思考」和「外部行动」之间分配认知资源的系统，那么过去很多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse，从 long-context scaling 到 lifelong learning—— 或许都可以放回同一条主线上重新理解。

ToA 并不是这条路线的终点，更像是一个开始：它尝试把 Agent 从一套不断堆叠技巧的工程系统，重新变成一个可以被分析、被解释、也能够被长期积累的科学对象。