打开网易新闻 查看精彩图片

过去两年 Agent 研究更像一场工程竞赛 —— 谁的推理链更长、谁的工具箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活,而是把它变成一门科学 :不仅问「它 work 不 work?」,更要问「它为什么work」,以及什么时候才应该这么做?」

这篇文章作者团队想聊聊在ICML 2026 提出的Theory of Agent (ToA)—— 以及它如何解释当下最前沿的长上下文、推理模型、工具使用 、自进化智能体背后那根共同的主线。

关于这项工作

Theory of Agent (ToA) 是由爱丁堡大学联合普林斯顿大学、UIUC、西北大学、香港中文大学共同提出的智能体统一理论,已被 ICML 2026 以 Position Paper 的形式接收。

打开网易新闻 查看精彩图片

  • 项目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/
  • 论文链接: https://arxiv.org/abs/2506.00886.pdf

作者团队覆盖了当前 Agent / LLM 研究的多条主线 —— 从 ReAct 式推理与工具使用,到 RL 对齐、世界模型、科学发现智能体 —— 这份工作也正是这些主线汇聚后的一次尝试:把 Agent 从一套工程技巧,变成一门可以被推理、被证伪、被累积的科学。

一个你肯定见过的场景:两份同样满分的试卷

想象同一套试卷发到两个学生手里。

  • 同学 A 走的是闭卷考试模式。整套题他靠自己:回忆知识点、做推理、验算,必要时在脑子里重新组织一遍 —— 他把考试当成锻炼基础和思维的机会;
  • 同学 B 走的是开卷考试模式。每一道题他都上网查、问 ChatGPT、翻参考答案,直接抄过来就交。

两份卷子批改下来,都是 100 分。老师如果只看分数,这两个人是一样的。但只要你当过老师,或者自己读过书,你就知道这两个人一学期之后的差距会非常大:

  • 同学 A :哪怕中间做错过、绕弯过,每做一题,他那根叫「解题直觉」的东西都在被加粗一次。期末的时候,同样一道题他能更快、更稳地做对,而且能举一反三。
  • 同学 B :他也做了一学期题,但他脑子里的知识存量没有任何变化。到了必须闭卷的那一次考试 —— 或者任何一次没有 ChatGPT 可用的场合 —— 他会突然发现自己什么都不会。

两份满分,两条命运完全相反的成长曲线。

先澄清一个常见误解: 这个故事里绝不是说「同学 A 不会用搜索引擎」或者「用工具是坏事」。恰恰相反 —— A 也可以、也应该在需要的时候用工具 (考试是比喻,真实世界里的 Agent 当然会遇到靠自己无论如何答不出来的题,这时候必须调用外部信息)。
真正的关键是:能靠自己答对的题,就不必为了省事而默认抄答案。工具该在「靠自己不够」的时候上场,而不是在「根本还没试过」的时候就被默认触发。至于「什么叫靠自己不够」「什么叫真正必需」, 正是后面要花篇幅讲清楚的事 —— 作者会把它精确成一个叫知识边界(knowledge boundary) 的东西。>

换到 Agent 身上,这两类行为完全平行:

打开网易新闻 查看精彩图片

图 1. 同样正确的答案,背后可能是两种截然不同的资源分配。Agent A 什么都默认靠外部工具,内部推理能力被绕开、无法巩固;Agent B 在内部能解决时就内部解决 —— 但并不排斥在真正需要时使用工具 —— 推理能力在练习中被强化。

这不是一个设计问题。这是一个定义问题:什么叫一个「好」Agent? 如果「好」只意味着「答对」, 那开卷同学和闭卷同学没区别。但如果「好」还意味着「越做越聪明」,我们想要的显然是后者。而这恰恰是目前绝大多数 Agent 训练范式看不见的东西。

当下智能体的四种失败模式,其实是同一个病

过去两年,Agent 系统暴露出了许多彼此看似无关的问题。有些模型在还没真正理解任务时就急于行动,不断切换思路;有些则在简单问题上陷入冗长推理,甚至为「2+3 等于几」生成十几条重复 reasoning path。另一类问题则发生在与外部世界的交互上:模型要么迟迟不愿调用本该使用的工具,要么把原本几步就能完成的操作拆成漫长而重复的轨迹。

这些现象通常被分别归类为 reasoning、planning 或 tool-use 的问题,因此业界也习惯于逐个修补:过度推理就增加长度惩罚,工具滥用就约束 action budget,行动不足就强化工具调用能力。

但如果把这些现象放在同一个视角下,会发现它们其实共享着同一个更底层的结构:Agent 始终在面对一个持续存在的决策 —— 下一步究竟应该继续依赖内部思考,还是转向外部世界获取信息。

不同的失败模式,本质上只是这个决策在不同方向上的失衡。答早了是 underthinking,答晚了是 overthinking,问少了是 underacting,问多了是 overacting。不是四个独立的问题,而是同一个病 —— 在不确定性下的决策错配 —— 以四个方向表现出来。

下半场的工作,不是继续打补丁,而是治这个病。

换一个视角:推理和行动,是一体两面

如果顺着这个问题继续往下推,一个更自然的观察会出现:所谓「推理」和「行动」,未必是两种本质不同的阶段。对于 Agent 来说,它们更像是在不同位置获取信息的两种方式。链式思考、反思和任务分解,本质上是在重新组织模型已经拥有的信息;而搜索、API 调用、代码执行等行为,则是在向外部世界索取模型当前并不具备的信息。

推理和行动,是两种用来降低同一种不确定性 (epistemic uncertainty, 认知不确定性) 的工具。它们的差别只在于信息来源。

  • 内部认知工具 (链式思考、反思、分解):把 Agent已经有的信息重新组织一遍;
  • 外部物理工具(搜索、API、UI 操作、执行代码):注入 Agent 没有的信息。

两者都在降低不确定性,只不过一个发生在内部,一个发生在外部,这样智能体的行为轨迹就变成了:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 2. 左:传统 ReAct 把推理和行动混在一起当做两个阶段。右:ToA 把 Agent 看成一个统一的策略,它在两类工具里做选择 —— 内部认知工具查的是「自己这个世界模型」, 外部物理工具查的是「真实世界」。

眼下,哪种工具能最快降低我对这个任务的不确定性

这也是为什么长上下文、RAG、工具使用、agentic RL 其实都在指向同一件事,沿着「内部还是外部」这一根轴的不同分配。

每个 Agent 都有自己的「会做题」范围

一旦推理和行动平起平坐,研究的核心对象就不再是「策略」, 而是:这个 Agent 靠自己能解决的任务,和需要外部帮助才能解决的任务,边界在哪里?

ToA 把这件事精确化了:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 3. 左:一个 Agent 的「知识边界」把它能内部解决的任务和剩下的世界任务隔开。中:多个 Agent 都能内部解决的部分 ——「最小任务集」。右:这群 Agent 中任意一个能内部解决的并集 ——「最大任务集」。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

最核心的一条:脑力劳动的「总量守恒」

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

而这个总和和策略无关。我们可以把努力从内部挪到外部,也可以反过来,但总量是定的。类似于我们刚开始举的那个例子,学生 A 和学生 B 就是在使用不同的分配策略去解决同一套试卷。

从这个角度再看工具使用,会发现一个容易被忽略的事实:外部工具并不会真正消除任务本身的信息负担。它们只是把原本需要由模型内部完成的认知过程,转移到了外部系统上。一个复杂问题之所以变得「容易」,很多时候不是因为问题本身被简化了,而是因为求解过程被重新分配了。

用生活比喻:你要做一道红烧肉。

  • 我们可以全靠自己的手艺:选肉、焯水、糖色、火候一手拿捏。这是内部努力拉满。
  • 我们也可以点一份半成品,回家热一下,或者直接点外卖。这是外部努力拉满。
  • 我们还可以用预制菜 + 自己炖十分钟,平衡一下。

打开网易新闻 查看精彩图片

Agent 行为的几何:不同点的含义以及最优行为

既然「认知努力」是一个在两个维度间分配的固定预算,那 Agent 的行为就活在一个二维平面上,如下图所示。

打开网易新闻 查看精彩图片

图 4. 横轴是内部推理投入,纵轴是外部行动投入。斜线是最小努力前沿 βE_{int}+E_{ext}=E^*。左:任务在内部可解,两种努力可以自由互换;右:任务超出内部能力,外部努力存在一个不可削减的底线。*

图上标了三个关键点:

打开网易新闻 查看精彩图片

点 A 的「万能性」恰恰是它的危险。一旦有一个足够能干的外部 Agent 可调用,A 不管任务在边界的哪一侧都能走通。这就是为什么只奖励正确性的训练会自然漂移到左上方的 A 点附近—— 它是通往奖励最省心、最低风险的路径。

用实习生的例子类比:小 A 永远都能「对」。老板只要看答案,他没错。但一年下来,他没有学会任何一道题的内在逻辑 —— 因为他没有给自己「尝试用大脑」的机会。点 A 就是那个「永远搜一下就行」的坑。

等等,那 AC 和 AB 之间呢?

这是一个微妙但非常重要的点。A、B、C不是仅有的三个「正确答案」。

打开网易新闻 查看精彩图片

那它们之间有什么区别?——区别不是「优不优」, 而是「偏好不同」。

对内部可解的任务 (线段AC), 内外努力可以自由置换:

  • 延迟敏感的部署,也许更偏A(一次外部调用快、干脆);
  • 安全敏感、或外部调用很贵的部署,更偏C(不要轻易触发现实世界的动作);
  • 成本中性的部署,选个中间点就好。

对外部必需的任务 (线段AB), 外部努力的底线不能砍,但在这条底线之上,同样存在一个偏好谱:

  • A= 少想、多调;
  • B= 先把脑子用尽,只调用那个最低限度必需的外部工具。

换句话说,前沿是一整条帕累托最优曲线,A、B、C 只是三个代表性的端点。不同的业务场景 —— 安全、延迟、成本、合规 —— 沿着这条曲线选择不同的位置,都是对的。

那条斜线的斜率 β,到底在说什么?

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

β 的大小决定了那条斜线的倾角, 也就决定了「帕累托最优前沿」的形状:

  • β 很大(想很贵、调便宜):斜线陡,最优点整体偏向多调外部。直觉:既然我这颗大脑昂贵又慢,那能外包就外包。这解释了为什么「小模型 + 强工具链」往往是理性选择 —— 对一个 Llama-3-8B, 让它自己写一堆 CoT 不如直接 RAG 出来给它看。
  • β 很小(调很贵、想便宜):斜线缓,最优点整体偏向多靠内部。直觉:每次触碰现实世界都要花钱 / 承担风险,那就能在脑子里解决的就别动手。这解释了为什么推理模型 (o1/R1 那一代)把赌注押在「内部 scaling」上 —— 在它们的成本结构下,多推几步比调一次工具便宜得多。

这就把 ToA 和资源有限理性(resource-bounded rationality) 接上了:没有放之四海皆准的「最佳 Agent 行为」,只有「在当前 β 下最佳的行为」。一条产线上的 Agent 换个部署环境, β 变了,最优的分配策略就应该跟着变。所以 ToA 的「对齐」不是「让 Agent 学会一种固定姿势」, 而是让 Agent 学会识别 β , 并沿着 β 对应的那条前沿去分配努力。

那 ToA 反对的是什么?是 Agent「稀里糊涂地漂到 A」—— 不是因为 β 让 A 是最优解,而是因为只奖励正确性的训练让 A 变成了最省事的惯性选择。同一个 A,被 β 论证过的 A 和 被惯性带过来的 A ,在几何上无法区分,但在 Agent 的长期发展上天差地别。对齐意味着有意识地选前沿上的某一点,而不是在训练惯性下默认滑到角落。

捷径的代价:Agent 也会被「惯坏」

ToA 里有一个命题叫Prop 3.9: 委托诱导的能力停滞—— 翻译成大白话:

如果 Agent 系统性地把本可以内部解决的任务也外包出去,它的内部推理能力不会因为经验积累而变强,哪怕它在原理上本可以变强。

这是 Agent 版的「小 A 问题」:他一直在外部工具辅助下答对,从未给自己「自己想想看」的机会,所以他的内部能力原地踏步。看起来今天很能打,十年后还是这个水平。

这其实也是我们观察很多人类实习生、甚至学生的规律 ——有捷径可走时,大脑就不会再去走长路。而大脑从长路走回来的那部分,才是「长本事」的那部分。Agent 的 RL 训练如果只看正确率,就会被这个最可靠的捷径吸引过去,完全复制同样的陷阱。

所以近期那些加「工具使用惩罚」的方法事后看,本质上都在逼近 ToA 说的effort-consistent alignment:既要答对,也要克制。

下半场的训练:四条路同时走,缺一不可

把上面所有内容落到训练,大致是四条互补的路径。每一条单独走都不够,它们各自对付「只求正确」这个病的一个侧面。

1.Agentic Post-training:Next-Tool Prediction

预训练的 next-token 把静态知识压进了参数,但它从没教会 Agent 怎么通过交互去获取新知识。我们主张把预训练延伸到next-tool prediction—— 把交互轨迹本身 (API 调用、UI 动作、环境查询) 变成一等建模目标,和文本并列。学会「在给定上下文下,下一个该用哪个工具」, 就不只是「会推理」, 而是会决定如何降低不确定性。这是一个新的 scaling 维度:不是储存更多知识,而是通过交互获取知识。

2. Agentic SFT:按能力定制的监督

标准 SFT 假设「好的工具使用」有统一标准,在同一套示范上喂所有模型。ToA 说这个假设不成立:对小模型恰当的工具使用,对大模型可能完全是多余—— 反过来也一样。一刀切的监督会让模型系统性地偏向示范者的内部任务集,而不是它自己的。

两条路:(1)按能力定制数据集—— 每个模型有自己的 Q_{int}, 这个干净但贵;(2)选择性求助—— 训练 Agent 只在低 solvability 的上下文下主动外求,近似一个保守的能力上包 Q_{max}, 更通用但精度妥协。

3.Agentic RL:过程,而不只是结果

前面说过,只奖励正确性必然漂向点 A—— 因为委托是「最稳妥得奖」的策略。有效的 agentic RL 必须奖励「怎么答对」,不只是「答对」。OTC-PO是一个具体例子:它明确惩罚不必要的工具调用,把「克制」和「正确」同等对待。更广义地,RL 允许 Agent 学过程级偏好—— 什么时候想、什么时候做、什么时候停 —— 这是只看结果的监督表达不出来的。

团队还设想一个迭代范式RL → SFT → RL:RL 在不确定性下发现对齐轨迹;SFT 把它们压缩成稳定的、可泛化的策略;第二轮 RL 在这个基础上再做一次元认知校准。预训练阶段带 RL (算力充足时) 是另一个有前景的方向。

4.Agentic Prompting:有用,但不够用

Prompt-based 方法 (ReAct 式脚手架、记忆、workflow 抽象) 可以不动参数就引出复杂工具使用行为,对快速迭代非常有用。但它们欠缺对决策质量的系统性评估—— 过度思考和过度行动可以藏在「结果对」下面,根本不会被检出。Prompting 是一个很好的「行为探针」, 但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的主线

四条路的共同点是:提升 Agent 不是让它推理更多或工具更少,而是让它能估计自己的内部可解度,并据此分配努力。后训练教「工具词汇表」;SFT 锚定「和自己能力匹配的基线」;RL 校准「过程级偏好」;prompting 把行为暴露出来好诊断。「对齐」不是一个固定的目标,而是良好校准的决策过程的涌现属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是同一个底层误校准的不同切片。

下半场会吵什么?三个还没解决的问题

未来几年 Agent 研究会围绕下面三个问题反复拉扯 —— 它们都是 ToA 打开的、但没有关上的:

  1. 怎么测量 Q_int (m,W)?内部任务集是潜变量,只能估计。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分答案。一个好的内部可解度代理,会立刻成为 alignment 训练的核心零件。
  2. 怎么训出真正尊重「努力守恒」的策略?只看结果的 RL 做不到,因为这个不变量对它不可见。给工具使用加惩罚是第一步;更本质的方案 —— 有意识地平衡内外轨迹的课程,然后用 RL 维持这个平衡 —— 还是开放问题。
  3. 怎么评估 Agent 的「努力分配」, 而不是只评估「答对率」?当下的 benchmark 只说「答对了没」, 这刚好错过重点。我们需要能区分「靠推理对」和「靠外包对」的 benchmark。没有这样的评估,就没办法判断一个 Agent 到底「变聪明了」, 还是「学会了更熟练地外包」。

一些有意思的讨论

长上下文 vs. RAG, 谁更好?

过去一年,前沿实验室在疯狂卷上下文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的工具链。同时 RAG 派坚持说「检索才是正道」。

在 ToA 下,两边其实在做同一件事,只是方式不同 :

  • 长上下文 = 提前扩展内部 :先把外部信息一股脑灌进来,再让 Agent 纯内部推理 —— 相当于把任务从 Qext 推回 Qint。
  • RAG = 按需外求 :信息留在外面,需要的时候再去取。

论文里的规范性结论是:在正确性相同的前提下,长上下文通常是更好的分配—— 因为它把 Agent 推向纯内部推理,而纯内部推理正是让能力「沉淀进参数」的那个训练信号。所以长上下文不只是产品体验,它本身就是能力内化的底座。

当然 RAG 不会消失。信息实时变化、规模太大、或者超出模型解析能力时,检索就是 epistemically 正当的选择。关键是,「用哪种」, 本身就该是一个基于认知效率的决策, 不是缺省。

内化和外化:一根一直在动的边界

这可能是 ToA 最实用的一个词汇贡献。一个 Agent 可以拆成两部分:

  • 模型 (Model):提供参数里的知识、内部推理能力 —— 也就是 Qint 的基础。
  • 脚手架 (Harness):提供工具、记忆、检索、上下文管理、外部协议 —— 也就是通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个相反的过程里被持续重塑:

  • 内化 (Internalization):把脚手架提供的能力,吸收进模型本身。算术、结构化查找、某些形式的检索、代码风格的变换 —— 都是典型的「曾经外部,后来搬到参数里去了」的能力。一旦内化成功,一度需要外部工具的任务就滑进了 QintQint——知识边界向外推了一格。ToA 对内化成功给出两个条件:(1)能力本身要可压缩(有结构,能被参数捕获);(2)训练过程必须至少在某些时候奖励「内部解决」—— 否则梯度信号消失,内化永远不会发生。
  • 外化 (Externalization):反方向。把能力卸给脚手架 —— 有时候很合理 (实时数据、验证器、具身动作), 有时候只是为了偷懒。按默认外化的问题恰好就是 Prop 3.9: 不是因为能力本质上在外,而是因为当前模型在这里做得不好,于是永远让它做不好。知识边界被冻结在了早期训练状态。

下半场的核心设计问题,不是「模型要多大」, 也不是「脚手架要多丰富」, 而是:怎样让这根边界朝着更高自主性的方向持续移动,同时不被「只求正确」的训练惯性拖回去?

自进化智能体

一个智能体可以被称为「自进化的」, 当且仅当它的内部任务集随时间严格扩张:

打开网易新闻 查看精彩图片

但这个扩张「够不够」,取决于它所处的那个世界本身是不是也在动。

打开网易新闻 查看精彩图片

也就是说 —— 最终,这个世界里一切能被解决的任务,都能由它自己内部解决。

  • 动态世界:这是一个「速率」问题。但真实世界从来不是静态的。W_t 会随着时间不断冒出新任务 —— 新工具、新接口、新领域、新问题层出不穷。这时候,自进化就不再是「能不能追上」, 而是能不能追得够快。它变成了一个严格的速率条件:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

结尾:Agent 不是「答对的机器」,是「越用越聪明的东西」

如果把 Agent 看成一种持续在「内部思考」和「外部行动」之间分配认知资源的系统,那么过去很多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse,从 long-context scaling 到 lifelong learning—— 或许都可以放回同一条主线上重新理解。

ToA 并不是这条路线的终点,更像是一个开始:它尝试把 Agent 从一套不断堆叠技巧的工程系统,重新变成一个可以被分析、被解释、也能够被长期积累的科学对象。