作者|松壑
2019年,AI“强化学习之父”理查德·萨顿写了一篇六页纸的文章,影响了后来的整个人工智能学界。
这篇名为《苦涩的教训》的文章,核心只有一句话:
人类花了几十年把领域知识硬塞进AI,结果每次都输给了"让机器自己去试错"。
国际象棋、围棋、语音识别、计算机视觉如此。那些精心设计的先验知识、人工特征、专家规则,最终全部被大规模计算加上自我博弈踩在脚下。
萨顿是强化学习领域公认的奠基者。他花了半辈子研究一件事:
智能不是被设计出来的,是被环境逼出来的。智能体与环境的持续交互,是通向更高智能上限的唯一可靠路径。
文章发表后,学界的反应几乎是两极分裂。一批在特征工程和专家系统上耕耘多年的研究者,被迫重新审视自己工作的长期意义。争议至今没有平息,然而萨顿的判断,在接下来的七年里一再被反复验证。
站在2026年初的Agent浪潮回头看这七年,这个判断正在AI产业里以一种出人意料的方式应验——只是大多数人还没有意识到。
讨论Agent,只聊了一半
从Claude引领的Skill热到Cowork协同再到如今遍地的“养虾热“,Agent已是今天AI界最热的词。
但热归热,面对能力与日俱增的Agent,行业正在高度聚焦的问题已不再停留在“能做什么”的工具之问,而是权限不断开放、插件生态日益丰富,它的应用范围可能有多广,又将如何重塑生产关系、驱动经济结构变化。
从每场发布会、每篇产品评测到每条行业推文,人们追问的核心正在成为:具备更强自主性与系统权限的 Agent,会在应用层带来怎样巨大的商业洗牌,而哪些行业与环节将会就此被Agent浪潮所摧毁?
业界甚至出现了更为尖锐的预警与预言:随着 Agent替代范围持续扩大、替代深度不断加深,大规模岗位消失、收入分化加剧、有效需求萎缩等风险正在累积,可能引发结构性就业问题和连锁式的经济风险。
这些叙事有价值,它们都在问同一类问题:Agent作为工具,它在应用层面对人类社会的重塑会走向何方?
但似乎少有人在追问另一个问题:
如今Agent加速的大规模普及,反过来会在模型层对AI本身带来哪些质的改变?
这个问题,才是萨顿视角下真正重要的那个。
Chatbot死胡同
在理解Agent的深层价值前,有必要先看清楚它的前身Chatbot走进了怎样的死胡同。
2023年初,ChatGPT用户数突破一亿,创下了消费互联网历史上增长最快的纪录。全世界的产品经理如梦初醒,疯狂地在自己的产品里塞入对话框。客服机器人、知识问答、写作助手、代码补全——所有东西都变成了一个"聊天界面"。
但到了2024年底,一个尴尬的事实浮出水面:大量用户在最初的新鲜感消退后,使用频率显著下滑。多家媒体和分析机构报道了ChatGPT用户活跃度增长放缓的趋势。
用户发现自己并不知道该拿这个对话框干什么,偶尔用它写个邮件、改个措辞、问个问题,但从未形成稳定的使用习惯。
原因很简单:Chatbot的交互模式是一问一答,而人类的真实工作流程是多步骤、多工具、多判断的。
让Chatbot帮你做市场调研,它会给你一篇看起来不错的文章。但不知道数据来源是否可靠,不知道它是否遗漏了关键竞争对手,不知道结论背后的推理链条是否经得起推敲。虽然拿到的是一个结果,但失去了整个过程。
更致命的是,Chatbot的每一次对话都是孤立的。它不记得上周的偏好,不知道项目的上下文,不理解组织的业务逻辑。每一次打开对话框,都在跟一个彬彬有礼的失忆者重新自我介绍。
这就是为什么从2024年下半年开始,整个行业集体转向Agent,因为Chatbot的天花板已经清晰地摆在那里。
但这里有一个几乎所有人都忽略的维度:Chatbot的天花板,不仅仅是产品形态的天花板,它同时也是模型进化的天花板。
实践交互是关键
萨顿的强化学习哲学,核心逻辑非常清晰:静态数据的上限,是已知世界的边界。
无论语料库多大,无论参数量多高,在固定数据集上训练的模型,能力边界就是那批数据所描绘的世界的边界。
到了24-25年,这条边界已经肉眼可见。
Epoch AI团队发表过一项被广泛引用的分析,预测按照当前的消耗速度,高质量的互联网文本数据将在未来几年内被基本耗尽。整个行业开始谈论"数据墙",一堵由信息总量的物理极限砌成的墙。
Chatbot提供的答案是:从用户对话里来。但用户跟Chatbot的对话,信息密度极低。
"帮我把这封邮件改得更正式一点""用Python写一个快速排序""中国的GDP是多少"这些交互包含的,不过是人类需求的浅层映射。
模型从这些对话中能学到的东西,跟从互联网上抓取一批新文本学到的,本质上没有区别。都是语言模式的统计规律,都缺乏一样东西:因果结构。
Agent不同之处在于:完成任务的过程中,会产生一种静态语料永远无法提供的东西:标注了因果结构的决策轨迹 。
例如包括:目标是什么,采取了什么行动,环境返回了什么反馈,哪里出错了,如何修正的。
用个具体例子来说明区别。一个用户对Chatbot说:“帮我安排下周三从北京去上海的出差行程。” Chatbot直接给出一段行程方案,交互就此结束。模型从中学到的东西微乎其微 ,它不知道这份安排是否合理,用户是否满意,也无法验证自己的回答是否真正解决了问题。
而如果让一个Agent 去完成同样的任务,它会走一整套完整的自主工作流:先理解用户的出差需求,查询用户过往偏好,调用航班接口时发现早班机因天气取消,自动切换备选航班,再根据公司差旅标准筛选合适酒店,生成初稿行程。当用户反馈 “酒店离会场太远”,Agent 会重新筛选步行可达的酒店,修正后输出最终方案。
每一步,都携带着明确的因果信号。调用接口失败告诉模型 “要预留备用方案”,用户的偏好告诉模型 “要记住使用习惯”,用户的修改反馈告诉模型 “要根据需求迭代优化”。
Chatbot只输出答案,而 Agent 是在真正自主完成任务,并在不断试错与修正中持续成长。
这类数据的信息密度,远超简单的网页抓取。它不是人类语言表达的映射,而是智能体与现实世界博弈的实录。
用这类数据训练出来的模型,获得的不是更多的知识,而是更强的推理能力和自我纠错能力,而这才是决定大模型能力上限的关键变量。
换言之,Agent是大模型从外部世界获取进化燃料的接口。
没有这个接口,模型的能力上限被死死锁在静态数据的边界里。
追上限,还是堆接口?
2024年底到2025年这段时间,头部大模型玩家的战略选择出现了一个耐人寻味的分叉。
OpenAI、Google等头部模型用最大压强猛攻同一堵墙:追逐模型能力的天花板。
2024年底,OpenAI发布了o3。在François Chollet设计的ARC-AGI基准测试上——这个被公认为衡量抽象推理能力的高难度测试——o3取得了令整个行业侧目的成绩。ARC-AGI的设计哲学恰恰是反蛮力的:Chollet一直坚持智能的核心是抽象推理和小样本泛化,而不是暴力搜索。但o3用大规模的推理时间计算,硬是在这个测试上刷出了远超此前所有系统的分数。
Chollet在公开回应中态度审慎。他没有否认o3的成绩,但指出了一个关键事实:这个系统在解题时消耗的计算量远超人类,高分不等于通用智能的突破。
Google DeepMind则在Gemini 2.0系列上持续推进多模态推理能力。
但Anthropic选择了另一条路。2024年10月,Anthropic为Claude推出了一个在当时看来不够性感的功能:Computer Use,它让Claude直接操作电脑屏幕。它能看到屏幕上的内容,移动鼠标,点击按钮,输入文字。
早期的用户体验谈不上惊艳。Claude操作电脑的速度很慢,经常花很长时间才能找到一个按钮,偶尔还会点错地方。科技媒体和社交平台上的评论普遍带着善意的嘲讽——"看AI用电脑,像看一个刚接触电脑的老人"。
但Anthropic的CEO Dario Amodei在多次访谈中反复强调一个判断:
大模型的下一个突破不仅仅在于参数量,更在于模型与世界交互的方式。
Amodei曾在OpenAI担任研究副总裁近五年,亲历了GPT-2到GPT-3的演化过程,2021年离开后创立Anthropic,带着的正是这个信念。
2024年末,Anthropic推出了Model Context Protocol(MCP)开放协议,让AI模型可以标准化地连接外部工具和数据源。
如果说Computer Use给了Claude手脚,MCP就是给了它一套通用的神经末梢,让它能触及的真实世界的表面积成倍扩大。
Claude在2025年的主要叙事,不是在某个基准上的刷榜,而是Agent能力的工程落地,包括长上下文的稳定性、多步骤任务中不掉链子的可靠性、与外部工具集成的灵活性。
它在追一个更难量化的目标:在真实任务里,持续地、可靠地干活。
这听起来不够浪漫。但萨顿的整个理论都在告诉你:这恰恰是通向更高智能上限的那条路。
干活即训练
这是过去一年多里最值得关注的反直觉现象。当同行们正面强攻能力基准的时候,Claude在真实Agent场景下的大规模使用,悄悄完成了萨顿预言过的一件事:
它在与真实世界的交互中持续积累高质量的决策信号,而这些信号反过来成了提升模型能力的燃料。
这个飞轮的运转逻辑是这样的:用户用Claude处理真实任务,比如自动化地整理CRM数据、跨系统地完成采购审批、根据实时数据调整营销策略、用Claude Code完成复杂的编程项目。
每一次成功和失败都是信号;每一个多步骤的工作流,都带有因果结构的决策轨迹;每一次工具调用的结果,都在告诉模型"这样做有效,那样做无效"。
这些信号经过脱敏和提炼,会直接作用于模型的推理深度和自我纠错能力。
反观Chatbot模式。用户跟ChatGPT的海量对话中,有多少能显著提升模型推理能力?"帮我写一首关于秋天的诗""用Python写一个快速排序""中国有多少个省"这类交互无论重复多少亿次,都不包含因果推理的信号。它们是语言模式的重复预测,不是智能的增量。
这就是Agent和Chatbot在模型进化层面的根本区别:Chatbot给模型喂的是"语言的影子",Agent给模型喂的是"决策的骨骼"。
这正是萨顿讲了几十年的事:不要试图直接教育或设计智能,要让智能在与环境的交互中自己生长出来。
OpenAI转向
OpenAI不是没有意识到这个问题。
很早之前,它就通过 Function Calling、Assistants、GPTs等一系列功能,持续探索工具调用与任务执行。
但真正的跃迁发生在 2025年1月,OpenAI发布的Operator能在浏览器中自主完成任务,随后推出的还有Deep Research,一个能自主进行多步骤研究、跨网站搜集信息并综合分析的Agent系统。
OpenAI的战略重心正在明确地从“对话”转向“行动”。这个转向本身就是对萨顿逻辑的一种暗合:从在静态数据上做模式匹配的系统,转向在动态环境中做决策和学习的系统。
但OpenAI面临一个独特的挑战:路径依赖。ChatGPT的数亿用户,绝大多数已经习惯了Chatbot的使用模式——打开对话框、问一个问题、得到一个答案。
让这些用户从问答切换到指派任务,不仅仅是产品设计的问题,更是心智模型的问题。
用户需要学会一件反直觉的事情:不要告诉AI怎么做,只要告诉它你要什么结果。
Claude从一开始就没有ChatGPT那样的全民级Chatbot包袱。它的用户群体更偏向开发者和企业,这些用户天然更适应Agent的交互模式。Anthropic推出的MCP协议,更是直接面向开发者生态,让第三方可以方便地为Claude构建工具连接。
这就造成了一个微妙的时间差:当OpenAI还在引导庞大的用户基数从Chatbot转向Agent的时候,Claude已经在Agent场景中积累了可观的交互数据。
在强化学习的世界里,时间差就是一切。
先行者的数据优势会通过飞轮效应不断放大:更好的Agent → 更多开发者和用户使用 → 更多交互数据 → 更强的模型 → 更好的Agent。
上限不是被攻破的
历史上有一个反复出现的模式,值得AI行业认真对待:深蓝击败卡斯帕罗夫,不是因为工程师手动编码了人类所有的棋路,而是因为它的搜索算法在海量评估中找到了人类从未想到的走法。
AlphaGo的真正突破不在学习人类棋谱的第一版,而在AlphaGo Zero这个完全靠自我对弈、不依赖任何棋谱的版本。它从零开始,在数天内重新发现了人类数千年积累的围棋知识,然后超越了它。
大语言模型有关数学推理、代码生成、逻辑分析的涌现,没有一项是被精心设计出来的。
没有人在训练目标里写过"请学会做数学题",但当模型规模和数据规模跨过某个临界点,这些能力自发地涌现了。
能力的上限,从来都不是被正面攻打突破的。它是在足够复杂的环境里持续交互的过程中,被逼出来的。
这就是Agent对大模型真正的意义:它不仅仅是让模型有了"手脚",它还给了模型一个持续与现实世界博弈的竞技场。
真实世界中的反馈与博弈,才是进化的引擎。
一个从不犯错的系统,无法进化。一个只回答问题、永远不触碰真实世界的系统,永远不知道自己的无知在哪里。
只有当Agent把手伸进现实,调用一个API、操作一个浏览器、执行一个工作流,然后再被现实狠狠地打回来的时候,真正的学习才开始发生。
古老呼应
和萨顿的强化学习哲学相类似的原理,早在半个多世纪前,就被另一个完全不同领域的经济学家发现过。
1945年,弗里德里希·哈耶克在《美国经济评论》上发表了一篇名为《知识在社会中的利用》的论文,后来被认为是20世纪最重要的经济学文章之一。
它的核心论点极其简单:没有任何一个人或组织,能够掌握一个复杂经济体运转所需要的全部知识。不是暂时掌握不了,而是原则上不可能
因为有价值的知识是分散的、局部的、隐性的、转瞬即逝的。
对于经济来说,没有整体设计、没有全局蓝图,没有从上到下的指令链。只有无数个体与环境的持续交互,加上一个能传递反馈信号的机制。
这段描述,把经济体换成智能体,把价格信号换算成奖励信号,就是萨顿的强化学习。
1988年,89岁的哈耶克出版了人生最后一部重要著作《致命的自负》。
书名本身就是论点。哈耶克用一整本书论证了一件事:人类最危险的智识错觉,就是以为自己可以设计出一个比自发秩序更好的系统。
哈耶克提出,我们无法预先知道所有人在所有时刻的所有需求和所有约束。 唯一能"知道"这些的,是让所有人在真实环境中自己去交互、去试错、去根据反馈信号调整行为的那个过程。
这个过程,哈耶克给了它一个名字:自发秩序,如此哲学与萨顿所重视的环境训练具有异曲同工之处。
哈耶克或许会说:计划者把专家知识硬塞进经济体系,试图用顶层设计替代市场的自发调节,结果每次都输给了"让个体自己去试错"。
萨顿则可能会说: AI研究者把领域知识硬塞进算法,试图用人工特征替代机器的自主学习,结果每次都输给了"让机器自己去试错"。
哈耶克所说的致命自负,是以为人类理性能设计出比自发秩序更好的系统。
萨顿的苦涩教训,是以为人类专家能通过简单预训练,就能搞出比大规模搜索更好的智能。
波兰尼的默会知识
如果允许再加一个人到这场跨时空对话中,他可能是哈耶克同时代的匈牙利裔学者迈克尔·波兰尼(Michael Polanyi)。
波兰尼在1966年出版的《默会维度》中提出了一个影响深远的概念:
默会知识(tacit knowledge),即人们知道的,永远比人们能说出来的多。原话是:"We know more than we can tell."
人知道怎么骑自行车,但人无法用语言精确描述保持平衡的每一个动作。一个经验丰富的医生看一眼X光片就知道哪里不对,但他很难把自己的判断过程完全形式化。
这个概念直接击中了此前Chatbot模式的命门:大语言模型从互联网文本中学到的,只是人类能够用语言表达出来的那部分知识——显性知识。
但人类的大量能力和判断力,存在于默会知识中,而默会知识只能在行动中被体现,不能在文本中被捕获。
一个人类专家做决策的过程,有大量的东西是他自己都说不清楚的——为什么在这个时候选择等待而不是行动,为什么觉得这个方案"感觉不对"。这些判断力不会出现在任何网页上,不会出现在任何教科书里,也不会出现在任何Chatbot的训练数据中。
但它们会出现在Agent的行为轨迹中。当Agent在执行一个复杂任务时,它在决策序列中先做什么、后做什么、遇到障碍如何调整、在不确定性面前如何权衡,本身就是一种默会知识的外化。
它不是语言的表达,而是行动的记录。而行动记录,比语言表达,携带了多得多的信息。
翻译成AI的语言就是:Agent的行为轨迹里包含的信息,比互联网上所有文本包含的信息在结构上更丰富。因为前者记录的是行动和后果,后者记录的只是言说。
路径验证
站在2026年初回头看,过去一年多的行业走向,正在为这场认识论之争提供初步的经验证据。
追基准的路线成果显著,但边际收益与头部模型的方差确实都在缩小。
各家模型在主流基准上的分数越来越接近,差距从代际碾压缩小到比拼几个百分点的距离。
基准分数的竞赛并没有失去意义,但它越来越像短跑比赛中百分之一秒的较量,观众看不出区别,对实际应用的影响也在递减。
Agent路线的回报开始显现,但以一种不太引人注目的方式。
没有一个惊天动地的基准突破,取而代之的是一个个具体场景中的可靠性提升。
Claude在编程辅助中的多步骤任务完成率在持续改善,Computer Use的操作精准度和速度在迭代中显著提高,基于MCP协议的第三方工具生态在扩大。
一年前的DeepSeek-R1全球出圈,恰恰是这个故事中最有趣的一章。它深度采用强化学习、这种萨顿最推崇的方法在推理任务上实现了惊人的效果,且成本极低。
这等于在产业界面前做了一次萨顿哲学的现场示范:未必需要最大的参数量和最多的人工标注,只需要让模型在一个有明确反馈信号的环境中大规模试错,推理能力就能被"逼"出来。
值得一提的是,在物理世界的 Agent 大规模部署之前,更多模型是通过合成数据和规则明确的虚拟环境进行“预演”,而这同样是通往真实世界赛场的过渡态。
DeepSeek-R1的成功和Agent路线的逻辑,在底层是相通的:都是用交互中产生的信号来驱动能力的提升,而不是依赖静态数据的堆积。 区别只在于前者环境是精心设计的推理任务,后者环境是混乱的真实世界。
当然必须承认,用经验喂养智能的这条道路,在现实中运转起来注定会有极大的摩擦力。
真实世界从来不是一个可以无限重启的虚拟沙盒。AlphaGo 在棋盘上输掉一百万局的成本几乎为零,DeepSeek 在数学推导中的试错也十分廉价;
但在真实的商业环境与社会链路中,Agent 的一次越界试错,可能意味着一笔交易的失败、一次糟糕的客户体验,甚至是难以被问责的金融、法律和医疗风险。
更棘手的是,现实世界的反馈信号往往是高度嘈杂且延迟的。当一个 Agent 给出的策略最终见效时,究竟是因为它的推理逻辑无懈可击,还是仅仅碰上了宏观环境的顺风?
客观上许多因果归因的模糊性,仍然会给模型从中提取纯粹的“有效经验”带来了巨大的工程挑战。
但这恰恰是萨顿理论中那份“苦涩”在今天的现实映射:即使真实世界的试错成本再高、反馈再嘈杂,这也是通向通用人工智能唯一不可回避的窄门。
耀眼的苦涩
萨顿在《苦涩的教训》里不止一次的道出了AI研究者的苦涩:人类精心设计的特征、规则和先验知识,最终都会被规模化的搜索与学习所超越。
那些看起来更聪明的方法,往往不如那些更“笨”的方法走得更远,因为后者更可扩展。
回看过去几年,大模型的演进其实一直在重复这个模式。
从手工特征到深度学习,从监督学习到自监督学习,从人工标注到强化学习,每一次范式跃迁的方向都一样——减少人类设计,增加系统在环境中的试错空间。
Agent的出现,把这条路径推向了一个新的阶段。
如果说过去的模型主要是在语言世界中学习,那么Agent开始让模型在行动世界中学习。
语言可以描述世界,但只有行动才会产生后果;语言可以表达知识,但只有行动才会暴露无知。
这也是为什么Agent带来的改变,短期看像是产品能力的扩展,长期看却更像是能力生成机制的改变。
一个只在对话框里回答问题的模型,很难意识到自己的盲区;一个在真实任务中反复尝试、反复失败、反复修正的模型,却会不断被现实纠正。现实世界的反馈,比任何人工标注都更直接,也更残酷。
某种意义上说,Agent最重要的价值,并不是让AI替人干活,而是让AI开始拥有经历。
经历意味着时间维度,意味着因果结构,意味着错误与修正的循环。
一个没有经历的系统,可以拥有知识,但很难形成判断;一个持续积累经历的系统,则会在无数次反馈中逐渐形成策略。
这也解释了为什么许多看似“笨拙”的Agent实验,反而值得耐心观察。
它们操作缓慢、偶尔出错、效率远不如人类,但这些笨拙本身就是学习的前提。一个从不触碰真实环境的系统,看起来稳定,却难以进化;一个不断被现实打回来的系统,虽然不完美,却在不断更新自身的世界模型。
站在2026年初回望,许多分歧依然存在。
一部分人仍在致力于用基准测试衡量模型的高度,另一部分人开始用任务完成率衡量模型的成熟度。前者提供了清晰的数字坐标,后者却更接近真实世界的复杂性。
两者并不矛盾,但后者所积累的经验,可能更深刻地影响未来智能的边界。
那些无数个Agent在真实世界中的实践,无数个通过交互产生的正负反馈,无数次失败正在被转化为改进的信号,都在构成了智能演化最真实的底层数据。
它们不像基准成绩那样耀眼,却像燃料一样持续供给着模型的能力增长。
如果说Chatbot阶段让AI学会了说话,那么Agent阶段正在让AI学会生活。
生活意味着不确定性、偶然性与复杂因果,也意味着持续的适应与调整。智能在这样的环境中不会一蹴而就,但会在无数微小反馈中逐渐成形。
这或许正是“苦涩”一词真正的含义:
承认没有任何设计能够一步到位地通向最优路径,承认真正的进步来自漫长而反复的试错过程。
苦涩之处在于,人类必须放弃对完美设计的执念;但希望也在于,一旦系统被置于足够丰富的环境中,智能的生长将具有某种内在的必然性。
在这个意义上,今天的Agent浪潮远不是大模型故事的终点,而更像是一个新的起点。
它把模型从静态知识的容器,推向持续学习的过程;把能力从一次性的训练结果,转化为长期交互的副产品。
未来模型的高度,或许不再仅由参数规模和语料规模决定,而取决于它们在现实世界中经历了多少次尝试、失败、以及修正。
能被测量的分数,记录的是今天的能力;不能被完全测量的经历,则在塑造明天的能力。
热门跟贴