Agent的苦涩觉醒：智能正从语言走向经验|agent|智能体|真实世界|真实场景

作者｜松壑

2019年，AI“强化学习之父”理查德·萨顿写了一篇六页纸的文章，影响了后来的整个人工智能学界。

这篇名为《苦涩的教训》的文章，核心只有一句话：

人类花了几十年把领域知识硬塞进AI，结果每次都输给了"让机器自己去试错"。

国际象棋、围棋、语音识别、计算机视觉如此。那些精心设计的先验知识、人工特征、专家规则，最终全部被大规模计算加上自我博弈踩在脚下。

萨顿是强化学习领域公认的奠基者。他花了半辈子研究一件事：

智能不是被设计出来的，是被环境逼出来的。智能体与环境的持续交互，是通向更高智能上限的唯一可靠路径。

文章发表后，学界的反应几乎是两极分裂。一批在特征工程和专家系统上耕耘多年的研究者，被迫重新审视自己工作的长期意义。争议至今没有平息，然而萨顿的判断，在接下来的七年里一再被反复验证。

站在2026年初的Agent浪潮回头看这七年，这个判断正在AI产业里以一种出人意料的方式应验——只是大多数人还没有意识到。

讨论Agent，只聊了一半

从Claude引领的Skill热到Cowork协同再到如今遍地的“养虾热“，Agent已是今天AI界最热的词。

但热归热，面对能力与日俱增的Agent，行业正在高度聚焦的问题已不再停留在“能做什么”的工具之问，而是权限不断开放、插件生态日益丰富，它的应用范围可能有多广，又将如何重塑生产关系、驱动经济结构变化。

从每场发布会、每篇产品评测到每条行业推文，人们追问的核心正在成为：具备更强自主性与系统权限的 Agent，会在应用层带来怎样巨大的商业洗牌，而哪些行业与环节将会就此被Agent浪潮所摧毁？

业界甚至出现了更为尖锐的预警与预言：随着 Agent替代范围持续扩大、替代深度不断加深，大规模岗位消失、收入分化加剧、有效需求萎缩等风险正在累积，可能引发结构性就业问题和连锁式的经济风险。

这些叙事有价值，它们都在问同一类问题：Agent作为工具，它在应用层面对人类社会的重塑会走向何方？

但似乎少有人在追问另一个问题：

如今Agent加速的大规模普及，反过来会在模型层对AI本身带来哪些质的改变？

这个问题，才是萨顿视角下真正重要的那个。

Chatbot死胡同

在理解Agent的深层价值前，有必要先看清楚它的前身Chatbot走进了怎样的死胡同。

2023年初，ChatGPT用户数突破一亿，创下了消费互联网历史上增长最快的纪录。全世界的产品经理如梦初醒，疯狂地在自己的产品里塞入对话框。客服机器人、知识问答、写作助手、代码补全——所有东西都变成了一个"聊天界面"。

但到了2024年底，一个尴尬的事实浮出水面：大量用户在最初的新鲜感消退后，使用频率显著下滑。多家媒体和分析机构报道了ChatGPT用户活跃度增长放缓的趋势。

用户发现自己并不知道该拿这个对话框干什么，偶尔用它写个邮件、改个措辞、问个问题，但从未形成稳定的使用习惯。

原因很简单：Chatbot的交互模式是一问一答，而人类的真实工作流程是多步骤、多工具、多判断的。

让Chatbot帮你做市场调研，它会给你一篇看起来不错的文章。但不知道数据来源是否可靠，不知道它是否遗漏了关键竞争对手，不知道结论背后的推理链条是否经得起推敲。虽然拿到的是一个结果，但失去了整个过程。

更致命的是，Chatbot的每一次对话都是孤立的。它不记得上周的偏好，不知道项目的上下文，不理解组织的业务逻辑。每一次打开对话框，都在跟一个彬彬有礼的失忆者重新自我介绍。

这就是为什么从2024年下半年开始，整个行业集体转向Agent，因为Chatbot的天花板已经清晰地摆在那里。

但这里有一个几乎所有人都忽略的维度：Chatbot的天花板，不仅仅是产品形态的天花板，它同时也是模型进化的天花板。

实践交互是关键

萨顿的强化学习哲学，核心逻辑非常清晰：静态数据的上限，是已知世界的边界。

无论语料库多大，无论参数量多高，在固定数据集上训练的模型，能力边界就是那批数据所描绘的世界的边界。

到了24-25年，这条边界已经肉眼可见。

Epoch AI团队发表过一项被广泛引用的分析，预测按照当前的消耗速度，高质量的互联网文本数据将在未来几年内被基本耗尽。整个行业开始谈论"数据墙"，一堵由信息总量的物理极限砌成的墙。

Chatbot提供的答案是：从用户对话里来。但用户跟Chatbot的对话，信息密度极低。

"帮我把这封邮件改得更正式一点""用Python写一个快速排序""中国的GDP是多少"这些交互包含的，不过是人类需求的浅层映射。

模型从这些对话中能学到的东西，跟从互联网上抓取一批新文本学到的，本质上没有区别。都是语言模式的统计规律，都缺乏一样东西：因果结构。

Agent不同之处在于：完成任务的过程中，会产生一种静态语料永远无法提供的东西：标注了因果结构的决策轨迹。

例如包括：目标是什么，采取了什么行动，环境返回了什么反馈，哪里出错了，如何修正的。

用个具体例子来说明区别。一个用户对Chatbot说：“帮我安排下周三从北京去上海的出差行程。” Chatbot直接给出一段行程方案，交互就此结束。模型从中学到的东西微乎其微，它不知道这份安排是否合理，用户是否满意，也无法验证自己的回答是否真正解决了问题。

而如果让一个Agent 去完成同样的任务，它会走一整套完整的自主工作流：先理解用户的出差需求，查询用户过往偏好，调用航班接口时发现早班机因天气取消，自动切换备选航班，再根据公司差旅标准筛选合适酒店，生成初稿行程。当用户反馈 “酒店离会场太远”，Agent 会重新筛选步行可达的酒店，修正后输出最终方案。

每一步，都携带着明确的因果信号。调用接口失败告诉模型 “要预留备用方案”，用户的偏好告诉模型 “要记住使用习惯”，用户的修改反馈告诉模型 “要根据需求迭代优化”。

Chatbot只输出答案，而 Agent 是在真正自主完成任务，并在不断试错与修正中持续成长。

这类数据的信息密度，远超简单的网页抓取。它不是人类语言表达的映射，而是智能体与现实世界博弈的实录。

用这类数据训练出来的模型，获得的不是更多的知识，而是更强的推理能力和自我纠错能力，而这才是决定大模型能力上限的关键变量。

换言之，Agent是大模型从外部世界获取进化燃料的接口。

没有这个接口，模型的能力上限被死死锁在静态数据的边界里。

追上限，还是堆接口？

2024年底到2025年这段时间，头部大模型玩家的战略选择出现了一个耐人寻味的分叉。

OpenAI、Google等头部模型用最大压强猛攻同一堵墙：追逐模型能力的天花板。

2024年底，OpenAI发布了o3。在François Chollet设计的ARC-AGI基准测试上——这个被公认为衡量抽象推理能力的高难度测试——o3取得了令整个行业侧目的成绩。ARC-AGI的设计哲学恰恰是反蛮力的：Chollet一直坚持智能的核心是抽象推理和小样本泛化，而不是暴力搜索。但o3用大规模的推理时间计算，硬是在这个测试上刷出了远超此前所有系统的分数。

Chollet在公开回应中态度审慎。他没有否认o3的成绩，但指出了一个关键事实：这个系统在解题时消耗的计算量远超人类，高分不等于通用智能的突破。

Google DeepMind则在Gemini 2.0系列上持续推进多模态推理能力。

但Anthropic选择了另一条路。2024年10月，Anthropic为Claude推出了一个在当时看来不够性感的功能：Computer Use，它让Claude直接操作电脑屏幕。它能看到屏幕上的内容，移动鼠标，点击按钮，输入文字。

早期的用户体验谈不上惊艳。Claude操作电脑的速度很慢，经常花很长时间才能找到一个按钮，偶尔还会点错地方。科技媒体和社交平台上的评论普遍带着善意的嘲讽——"看AI用电脑，像看一个刚接触电脑的老人"。

但Anthropic的CEO Dario Amodei在多次访谈中反复强调一个判断：

大模型的下一个突破不仅仅在于参数量，更在于模型与世界交互的方式。

Amodei曾在OpenAI担任研究副总裁近五年，亲历了GPT-2到GPT-3的演化过程，2021年离开后创立Anthropic，带着的正是这个信念。

2024年末，Anthropic推出了Model Context Protocol（MCP）开放协议，让AI模型可以标准化地连接外部工具和数据源。

如果说Computer Use给了Claude手脚，MCP就是给了它一套通用的神经末梢，让它能触及的真实世界的表面积成倍扩大。

Claude在2025年的主要叙事，不是在某个基准上的刷榜，而是Agent能力的工程落地，包括长上下文的稳定性、多步骤任务中不掉链子的可靠性、与外部工具集成的灵活性。

它在追一个更难量化的目标：在真实任务里，持续地、可靠地干活。

这听起来不够浪漫。但萨顿的整个理论都在告诉你：这恰恰是通向更高智能上限的那条路。

干活即训练

这是过去一年多里最值得关注的反直觉现象。当同行们正面强攻能力基准的时候，Claude在真实Agent场景下的大规模使用，悄悄完成了萨顿预言过的一件事：

它在与真实世界的交互中持续积累高质量的决策信号，而这些信号反过来成了提升模型能力的燃料。

这个飞轮的运转逻辑是这样的：用户用Claude处理真实任务，比如自动化地整理CRM数据、跨系统地完成采购审批、根据实时数据调整营销策略、用Claude Code完成复杂的编程项目。

每一次成功和失败都是信号；每一个多步骤的工作流，都带有因果结构的决策轨迹；每一次工具调用的结果，都在告诉模型"这样做有效，那样做无效"。

这些信号经过脱敏和提炼，会直接作用于模型的推理深度和自我纠错能力。

反观Chatbot模式。用户跟ChatGPT的海量对话中，有多少能显著提升模型推理能力？"帮我写一首关于秋天的诗""用Python写一个快速排序""中国有多少个省"这类交互无论重复多少亿次，都不包含因果推理的信号。它们是语言模式的重复预测，不是智能的增量。

这就是Agent和Chatbot在模型进化层面的根本区别：Chatbot给模型喂的是"语言的影子"，Agent给模型喂的是"决策的骨骼"。

这正是萨顿讲了几十年的事：不要试图直接教育或设计智能，要让智能在与环境的交互中自己生长出来。

OpenAI转向

OpenAI不是没有意识到这个问题。

很早之前，它就通过 Function Calling、Assistants、GPTs等一系列功能，持续探索工具调用与任务执行。

但真正的跃迁发生在 2025年1月，OpenAI发布的Operator能在浏览器中自主完成任务，随后推出的还有Deep Research，一个能自主进行多步骤研究、跨网站搜集信息并综合分析的Agent系统。

OpenAI的战略重心正在明确地从“对话”转向“行动”。这个转向本身就是对萨顿逻辑的一种暗合：从在静态数据上做模式匹配的系统，转向在动态环境中做决策和学习的系统。

但OpenAI面临一个独特的挑战：路径依赖。ChatGPT的数亿用户，绝大多数已经习惯了Chatbot的使用模式——打开对话框、问一个问题、得到一个答案。

让这些用户从问答切换到指派任务，不仅仅是产品设计的问题，更是心智模型的问题。

用户需要学会一件反直觉的事情：不要告诉AI怎么做，只要告诉它你要什么结果。

Claude从一开始就没有ChatGPT那样的全民级Chatbot包袱。它的用户群体更偏向开发者和企业，这些用户天然更适应Agent的交互模式。Anthropic推出的MCP协议，更是直接面向开发者生态，让第三方可以方便地为Claude构建工具连接。

这就造成了一个微妙的时间差：当OpenAI还在引导庞大的用户基数从Chatbot转向Agent的时候，Claude已经在Agent场景中积累了可观的交互数据。

在强化学习的世界里，时间差就是一切。

先行者的数据优势会通过飞轮效应不断放大：更好的Agent → 更多开发者和用户使用 → 更多交互数据 → 更强的模型 → 更好的Agent。

上限不是被攻破的

历史上有一个反复出现的模式，值得AI行业认真对待：深蓝击败卡斯帕罗夫，不是因为工程师手动编码了人类所有的棋路，而是因为它的搜索算法在海量评估中找到了人类从未想到的走法。

AlphaGo的真正突破不在学习人类棋谱的第一版，而在AlphaGo Zero这个完全靠自我对弈、不依赖任何棋谱的版本。它从零开始，在数天内重新发现了人类数千年积累的围棋知识，然后超越了它。

大语言模型有关数学推理、代码生成、逻辑分析的涌现，没有一项是被精心设计出来的。

没有人在训练目标里写过"请学会做数学题"，但当模型规模和数据规模跨过某个临界点，这些能力自发地涌现了。

能力的上限，从来都不是被正面攻打突破的。它是在足够复杂的环境里持续交互的过程中，被逼出来的。

这就是Agent对大模型真正的意义：它不仅仅是让模型有了"手脚"，它还给了模型一个持续与现实世界博弈的竞技场。

真实世界中的反馈与博弈，才是进化的引擎。

一个从不犯错的系统，无法进化。一个只回答问题、永远不触碰真实世界的系统，永远不知道自己的无知在哪里。

只有当Agent把手伸进现实，调用一个API、操作一个浏览器、执行一个工作流，然后再被现实狠狠地打回来的时候，真正的学习才开始发生。

古老呼应

和萨顿的强化学习哲学相类似的原理，早在半个多世纪前，就被另一个完全不同领域的经济学家发现过。

1945年，弗里德里希·哈耶克在《美国经济评论》上发表了一篇名为《知识在社会中的利用》的论文，后来被认为是20世纪最重要的经济学文章之一。

它的核心论点极其简单：没有任何一个人或组织，能够掌握一个复杂经济体运转所需要的全部知识。不是暂时掌握不了，而是原则上不可能

因为有价值的知识是分散的、局部的、隐性的、转瞬即逝的。

对于经济来说，没有整体设计、没有全局蓝图，没有从上到下的指令链。只有无数个体与环境的持续交互，加上一个能传递反馈信号的机制。

这段描述，把经济体换成智能体，把价格信号换算成奖励信号，就是萨顿的强化学习。

1988年，89岁的哈耶克出版了人生最后一部重要著作《致命的自负》。

书名本身就是论点。哈耶克用一整本书论证了一件事：人类最危险的智识错觉，就是以为自己可以设计出一个比自发秩序更好的系统。

哈耶克提出，我们无法预先知道所有人在所有时刻的所有需求和所有约束。唯一能"知道"这些的，是让所有人在真实环境中自己去交互、去试错、去根据反馈信号调整行为的那个过程。

这个过程，哈耶克给了它一个名字：自发秩序，如此哲学与萨顿所重视的环境训练具有异曲同工之处。

哈耶克或许会说：计划者把专家知识硬塞进经济体系，试图用顶层设计替代市场的自发调节，结果每次都输给了"让个体自己去试错"。

萨顿则可能会说： AI研究者把领域知识硬塞进算法，试图用人工特征替代机器的自主学习，结果每次都输给了"让机器自己去试错"。

哈耶克所说的致命自负，是以为人类理性能设计出比自发秩序更好的系统。

萨顿的苦涩教训，是以为人类专家能通过简单预训练，就能搞出比大规模搜索更好的智能。

波兰尼的默会知识

如果允许再加一个人到这场跨时空对话中，他可能是哈耶克同时代的匈牙利裔学者迈克尔·波兰尼（Michael Polanyi）。

波兰尼在1966年出版的《默会维度》中提出了一个影响深远的概念：

默会知识（tacit knowledge），即人们知道的，永远比人们能说出来的多。原话是："We know more than we can tell."

人知道怎么骑自行车，但人无法用语言精确描述保持平衡的每一个动作。一个经验丰富的医生看一眼X光片就知道哪里不对，但他很难把自己的判断过程完全形式化。

这个概念直接击中了此前Chatbot模式的命门：大语言模型从互联网文本中学到的，只是人类能够用语言表达出来的那部分知识——显性知识。

但人类的大量能力和判断力，存在于默会知识中，而默会知识只能在行动中被体现，不能在文本中被捕获。

一个人类专家做决策的过程，有大量的东西是他自己都说不清楚的——为什么在这个时候选择等待而不是行动，为什么觉得这个方案"感觉不对"。这些判断力不会出现在任何网页上，不会出现在任何教科书里，也不会出现在任何Chatbot的训练数据中。

但它们会出现在Agent的行为轨迹中。当Agent在执行一个复杂任务时，它在决策序列中先做什么、后做什么、遇到障碍如何调整、在不确定性面前如何权衡，本身就是一种默会知识的外化。

它不是语言的表达，而是行动的记录。而行动记录，比语言表达，携带了多得多的信息。

翻译成AI的语言就是：Agent的行为轨迹里包含的信息，比互联网上所有文本包含的信息在结构上更丰富。因为前者记录的是行动和后果，后者记录的只是言说。

路径验证

站在2026年初回头看，过去一年多的行业走向，正在为这场认识论之争提供初步的经验证据。

追基准的路线成果显著，但边际收益与头部模型的方差确实都在缩小。

各家模型在主流基准上的分数越来越接近，差距从代际碾压缩小到比拼几个百分点的距离。

基准分数的竞赛并没有失去意义，但它越来越像短跑比赛中百分之一秒的较量，观众看不出区别，对实际应用的影响也在递减。

Agent路线的回报开始显现，但以一种不太引人注目的方式。

没有一个惊天动地的基准突破，取而代之的是一个个具体场景中的可靠性提升。

Claude在编程辅助中的多步骤任务完成率在持续改善，Computer Use的操作精准度和速度在迭代中显著提高，基于MCP协议的第三方工具生态在扩大。

一年前的DeepSeek-R1全球出圈，恰恰是这个故事中最有趣的一章。它深度采用强化学习、这种萨顿最推崇的方法在推理任务上实现了惊人的效果，且成本极低。

这等于在产业界面前做了一次萨顿哲学的现场示范：未必需要最大的参数量和最多的人工标注，只需要让模型在一个有明确反馈信号的环境中大规模试错，推理能力就能被"逼"出来。

值得一提的是，在物理世界的 Agent 大规模部署之前，更多模型是通过合成数据和规则明确的虚拟环境进行“预演”，而这同样是通往真实世界赛场的过渡态。

DeepSeek-R1的成功和Agent路线的逻辑，在底层是相通的：都是用交互中产生的信号来驱动能力的提升，而不是依赖静态数据的堆积。区别只在于前者环境是精心设计的推理任务，后者环境是混乱的真实世界。

当然必须承认，用经验喂养智能的这条道路，在现实中运转起来注定会有极大的摩擦力。

真实世界从来不是一个可以无限重启的虚拟沙盒。AlphaGo 在棋盘上输掉一百万局的成本几乎为零，DeepSeek 在数学推导中的试错也十分廉价；

但在真实的商业环境与社会链路中，Agent 的一次越界试错，可能意味着一笔交易的失败、一次糟糕的客户体验，甚至是难以被问责的金融、法律和医疗风险。

更棘手的是，现实世界的反馈信号往往是高度嘈杂且延迟的。当一个 Agent 给出的策略最终见效时，究竟是因为它的推理逻辑无懈可击，还是仅仅碰上了宏观环境的顺风？

客观上许多因果归因的模糊性，仍然会给模型从中提取纯粹的“有效经验”带来了巨大的工程挑战。

但这恰恰是萨顿理论中那份“苦涩”在今天的现实映射：即使真实世界的试错成本再高、反馈再嘈杂，这也是通向通用人工智能唯一不可回避的窄门。

耀眼的苦涩

萨顿在《苦涩的教训》里不止一次的道出了AI研究者的苦涩：人类精心设计的特征、规则和先验知识，最终都会被规模化的搜索与学习所超越。

那些看起来更聪明的方法，往往不如那些更“笨”的方法走得更远，因为后者更可扩展。

回看过去几年，大模型的演进其实一直在重复这个模式。

从手工特征到深度学习，从监督学习到自监督学习，从人工标注到强化学习，每一次范式跃迁的方向都一样——减少人类设计，增加系统在环境中的试错空间。

Agent的出现，把这条路径推向了一个新的阶段。

如果说过去的模型主要是在语言世界中学习，那么Agent开始让模型在行动世界中学习。

语言可以描述世界，但只有行动才会产生后果；语言可以表达知识，但只有行动才会暴露无知。

这也是为什么Agent带来的改变，短期看像是产品能力的扩展，长期看却更像是能力生成机制的改变。

一个只在对话框里回答问题的模型，很难意识到自己的盲区；一个在真实任务中反复尝试、反复失败、反复修正的模型，却会不断被现实纠正。现实世界的反馈，比任何人工标注都更直接，也更残酷。

某种意义上说，Agent最重要的价值，并不是让AI替人干活，而是让AI开始拥有经历。

经历意味着时间维度，意味着因果结构，意味着错误与修正的循环。

一个没有经历的系统，可以拥有知识，但很难形成判断；一个持续积累经历的系统，则会在无数次反馈中逐渐形成策略。

这也解释了为什么许多看似“笨拙”的Agent实验，反而值得耐心观察。

它们操作缓慢、偶尔出错、效率远不如人类，但这些笨拙本身就是学习的前提。一个从不触碰真实环境的系统，看起来稳定，却难以进化；一个不断被现实打回来的系统，虽然不完美，却在不断更新自身的世界模型。

站在2026年初回望，许多分歧依然存在。

一部分人仍在致力于用基准测试衡量模型的高度，另一部分人开始用任务完成率衡量模型的成熟度。前者提供了清晰的数字坐标，后者却更接近真实世界的复杂性。

两者并不矛盾，但后者所积累的经验，可能更深刻地影响未来智能的边界。

那些无数个Agent在真实世界中的实践，无数个通过交互产生的正负反馈，无数次失败正在被转化为改进的信号，都在构成了智能演化最真实的底层数据。

它们不像基准成绩那样耀眼，却像燃料一样持续供给着模型的能力增长。

如果说Chatbot阶段让AI学会了说话，那么Agent阶段正在让AI学会生活。

生活意味着不确定性、偶然性与复杂因果，也意味着持续的适应与调整。智能在这样的环境中不会一蹴而就，但会在无数微小反馈中逐渐成形。

这或许正是“苦涩”一词真正的含义：

承认没有任何设计能够一步到位地通向最优路径，承认真正的进步来自漫长而反复的试错过程。

苦涩之处在于，人类必须放弃对完美设计的执念；但希望也在于，一旦系统被置于足够丰富的环境中，智能的生长将具有某种内在的必然性。

在这个意义上，今天的Agent浪潮远不是大模型故事的终点，而更像是一个新的起点。

它把模型从静态知识的容器，推向持续学习的过程；把能力从一次性的训练结果，转化为长期交互的副产品。

未来模型的高度，或许不再仅由参数规模和语料规模决定，而取决于它们在现实世界中经历了多少次尝试、失败、以及修正。

能被测量的分数，记录的是今天的能力；不能被完全测量的经历，则在塑造明天的能力。

Agent的苦涩觉醒：智能正从语言走向经验

热搜

热门跟贴

热搜

热门跟贴

相关推荐

从「自我进化」到「DAA」，百度给出 Agent 时代系统答案

当机器学会了“手艺”：Agent Skill如何重塑世界

Hermes Agent：一个人指挥一群AI干活的时代到了

世界模型：AI正在学习"看懂"现实

人工智能代理、语言、深度学习与科学的下一场革命

3年AI教育困局：这家团队用1个记忆层让"智能"辅导不再失忆

他用AI把开发速度拉满，大脑却开始"生锈"

颠覆达尔文：智能不是进化出来的，它一开始就在

AI Agent 到底是什么？原理 + 常见应用一次讲透，小白也能听懂！agent开发

脑机接口迈入发展新征程：科技向善之下，机遇与思辨共生

工具从人工到智能

对话许华哲：进家的机器人，先做好这10件事

世界引擎：Post-Training开启Physical AGI新纪元

银河通用机器人“表演”变“上岗”，端到端大模型银河星脑有多强

8个AI顶流科学家，300亿估值：他们要让AI自我进化

Codex免费两个月！AI编程工具价格战开打，山姆·奥特曼下场抢人

35岁以后不想被AI取代的能力是什么

打破AI体验天花板，联发科成了Agent跨端生态“铺路人”

马斯克承认落后，xAI推出首款编程智能体，剑指行业顶流Claude Code

Agent输出到底该用谁？ 卡帕西转发：试试让AI输出HTML

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML