机器之心编辑部
本周四晚,前阿里千问大模型负责人林俊旸(Junyang Lin)在离职阿里千问后的首度公开发声,立刻在 AI 科技圈引发了关注。
自三周前自宣离开后,林俊旸这次并没有谈论个人的职业规划或离职内幕,而是发表了一篇题为《From "Reasoning" Thinking to "Agentic" Thinking》(从「推理式思考」到「智能体式思考」)的长文。
这篇文章深度复盘了过去两年大模型行业的演进,特别是千问团队在研发 Qwen3 时走过的弯路,并前瞻性地指出了 AI 大模型未来的绝对主线。
以下是全文内容:
过去两年重塑了我们评估(大语言)模型的方式以及我们对模型的期望。OpenAI 的 o1 表明,「思考」可以成为一项核心能力,可以进行训练并向用户展示。DeepSeek-R1 证明了推理式的后训练可以在原始实验室之外复现和扩展。OpenAI 将 o1 描述为一个使用强化学习训练的模型,其特点是「先思考后回答」。DeepSeek 将 R1 定位为一个与 o1 竞争的开放式推理模型。
这一阶段至关重要。2025 年上半年我们主要关注的是推理思维:如何让模型花费更多时间进行推理计算,如何用更强的奖励来训练它们,以及如何展示或控制这些额外的推理工作。现在的问题是,接下来会发生什么?我认为答案是智能体思维:在与环境交互的同时进行思考以采取行动,并根据来自世界的反馈不断更新计划。
1. o1 和 R1 的崛起究竟教会了我们什么
第一波推理模型告诉我们,如果想要在语言模型中扩展强化学习,我们需要确定性、稳定性和可扩展性的反馈信号。数学、代码、逻辑和其他可验证领域变得至关重要,因为在这些场景下,奖励远比通用的偏好监督更有力。它们使得强化学习能够优化正确性而非合理性。基础设施变得至关重要。
一旦模型被训练成能够推理更长的轨迹,强化学习就不再是监督式微调的轻量级附加组件,而变成了一个系统问题。我们需要大规模部署、高吞吐量验证、稳定的策略更新和高效的采样。推理模型的出现既是一个基础设施的故事,也是一个建模的故事。OpenAI 将 o1 描述为一条用强化学习训练的推理线,而 DeepSeek R1 后来通过展示基于推理的强化学习需要多少专门的算法和基础设施工作,进一步强化了这一方向。第一个重大转变:从扩展预训练规模到扩展后训练规模以进行推理。
2. 真正的问题绝非仅仅是「融合思考与指令」
2025 年初,Qwen 团队的许多成员心中都勾勒出了一幅宏大的愿景。我们理想中的系统,应当能够将「思考模式」与「指令模式」合二为一。它应支持可调节的推理强度 —— 其理念类似于推理设置中的「低 / 中 / 高」档位。更理想的是,系统能根据用户提示词(Prompt)及上下文语境自动推断出恰当的推理强度:从而让模型自行决定何时应即刻作答、何时需稍作深思,以及何时应投入海量算力去攻克那些真正棘手的难题。
从概念层面来看,这无疑是正确的方向。Qwen3 便是这一理念在公开领域最鲜明的一次尝试。它引入了「混合思考模式」:在同一系列模型中同时支持「思考型」与「非思考型」两种行为模式;它强调对「思考预算」的可控性;此外,它还详述了一个四阶段的后训练(Post-training)流程 —— 在该流程中,「思考模式融合」被明确安排在「长链式思维(Long-CoT)冷启动」与「基于推理的强化学习(Reasoning RL)」之后执行。
然而,「融合」二字说来容易,要真正将其完美落地却难如登天。症结所在,其实是「数据」。当人们探讨如何融合思考与指令模式时,脑海中往往首先浮现的是模型层面的兼容性问题:能否仅凭一个模型检查点(Checkpoint)便同时支持这两种模式?能否通过一套聊天模板在两者之间自如切换?能否通过一套服务部署架构(Serving Stack)提供恰当的模式切换开关?然而,问题的深层本质在于:这两种模式所依赖的数据分布及其所追求的行为目标,在根本上是截然不同的。
在试图兼顾「模型融合」与「提升后训练数据质量及多样性」这两大目标时,我们并未做到面面俱到。在这一迭代修正的过程中,我们始终密切关注着用户在实际场景中究竟是如何使用「思考模式」与「指令模式」的。对于一款优秀的「指令型」模型而言,其价值往往体现在:回答直截了当、言简意赅、严格遵循格式规范;且在处理诸如文本重写、数据标注、模板化辅助、结构化信息提取以及操作性问答(Operational QA)等高频、重复性的企业级任务时,能够保持极低的时延。
反观优秀的「思考型」模型,其价值则体现在:愿意为解决疑难问题投入更多的 Token 资源;能够维持连贯且富有逻辑的中间推理结构;敢于探索多元化的解题路径;并能预留充足的内部计算资源,从而切实提升最终答案的准确率。
这两种行为模式之间存在着内在的张力与冲突。如果用于融合训练的数据未经精细化的筛选与编排,其结果往往是两头皆空、表现平庸:其「思考型」行为会变得冗杂、臃肿,甚至显得优柔寡断;而其「指令型」行为则会变得不再干脆利落、可靠性下降,且其运行成本也远高于商业用户所期望的合理范畴。
在实际应用层面,将两者保持「分离」的状态,依然是更具吸引力的选择。 2025 年晚些时候,继 Qwen3 最初采用混合架构之后,2507 系列推出了针对指令(Instruct)和思维(Thinking)功能的独立更新,其中包括单独的 30B 和 235B 变体。在商业部署中,大量客户仍希望在进行批量操作时,能获得高吞吐量、低成本且高度可控的指令响应行为。对于此类场景,将两者合并带来的益处并不显著。将产品线拆分开来,使得各团队能够更纯粹地专注于解决每种模式各自面临的数据与训练难题。
其他实验室则选择了截然不同的路径。Anthropic 公开倡导一种「集成式模型」的理念:Claude 3.7 Sonnet 作为一款混合推理模型问世,用户既可以选择获取常规响应,也可以选择启用「扩展思维」模式;API 用户甚至可以为模型设定具体的「思维预算」。
Anthropic 明确表示,他们坚信推理能力应当作为模型的一项内在集成能力而存在,而非被拆分为独立的模型。GLM-4.5 也公开将自身定位为一款混合推理模型,同时支持思维模式与非思维模式,并实现了推理、编程及智能体(Agent)能力的统一;随后,DeepSeek 也在 V3.1 版本中采取了类似的策略,推出了「思维与非思维」(Think & Non-Think)混合推理功能。
问题的关键在于:这种合并究竟是否真正做到了有机统一?如果思维功能与指令响应功能仅仅是物理上共存于同一个模型检查点(checkpoint)之中,但在实际表现上依然像是两种生硬拼凑而成的「人格」,那么最终的产品体验仍将显得极不自然。真正成功的合并,要求模型能够呈现出一个平滑且连续的推理「强度」谱系。模型应当具备表达多种不同推理强度层级的能力,且理想情况下,应能根据具体情境自适应地在这些层级之间进行选择。GPT 系列模型所采用的推理强度控制机制,正是指向了这一方向:它并非简单的二元开关,而是一套基于计算资源调度的策略体系。
3. Anthropic 的发展方向为何起到了有益的纠偏作用
Anthropic 在对外宣传 Claude 3.7 和 Claude 4 时,其措辞显得相当克制。他们强调了集成推理能力、用户可控的「思考预算」、解决现实世界任务的能力、代码编写质量,以及随后引入的在进行长程思考时调用工具的能力。
Claude 3.7 被定位为一种具备可控预算的混合推理模型;而 Claude 4 则在此基础上进行了扩展,允许推理过程与工具调用交错进行,与此同时,Anthropic 明确将代码编写、长周期任务处理以及智能体(Agent)工作流视为其主要发展目标。
生成更长的推理轨迹,并不意味着模型就自动变得更加智能。在许多情况下,过度的、显性的推理痕迹反而暴露出模型在资源分配上的低效与薄弱。如果模型试图以同样冗长繁琐的方式去对所有事物进行推理,那很可能意味着它未能有效地进行优先级排序、未能对信息进行精简压缩,甚至未能果断地采取行动。
Anthropic 的发展轨迹所体现的,是一种更为严谨的理念:模型的思考过程应当根据其所针对的具体工作负载来塑形。如果目标任务是代码编写,那么思考过程就应当致力于辅助代码库的导航、任务规划、问题拆解、错误修复以及工具的协同调度。如果目标任务是智能体工作流,那么思考过程的核心目的应当是提升在长周期任务执行中的质量与成效,而非仅仅为了生成那些看似精彩却无实质意义的中间过程文本。
这种对「针对性实用价值」的强调,指向了一个更为宏大的趋势:我们正从「训练模型」的时代,迈向「训练智能体」的时代。我们在 Qwen3 的官方博客文章中明确阐述了这一观点,文中写道:「我们正从一个专注于训练基础模型的时代,向一个以训练智能体为核心的时代过渡」;同时,我们将未来强化学习(RL)技术的进步,与基于环境反馈所实现的长程推理能力紧密地联系在了一起。所谓「智能体」,是指这样一种系统:它能够制定行动计划、自主决定何时采取行动、调用外部工具、感知并解读环境反馈、适时调整策略,并能在漫长的时间跨度内持续地执行任务。智能体的本质特征,在于它与现实世界之间所建立的那种「闭环式」的交互关系。
4. 「智能体式思维」的真正含义
智能体式思维设定了一个截然不同的优化目标。推理式思维通常是根据模型在得出最终答案之前进行内部推演的质量来评判的:即模型能否解出定理、写出证明、生成正确的代码,或者通过基准测试。而智能体式思维关注的则是:模型在与环境进行交互的过程中,能否持续地取得进展。
核心问题由此发生了转变:不再是「模型能否进行足够长时间的思考?」,而是「模型能否以一种能够支撑有效行动的方式进行思考?」智能体式思维必须处理一系列纯粹的推理模型大多可以回避的问题:
- 决定何时停止思考并采取行动
- 选择调用哪种工具,以及按何种顺序调用
- 整合来自环境的带有噪声或不完整(部分)的观测信息
- 在遭遇失败后对计划进行修正
- 在多轮交互及多次工具调用之间保持逻辑的一致性
智能体式思维所描述的模型,是通过「行动」来进行推理的。
5. 为什么智能体式强化学习的基础设施构建难度更大?
一旦优化目标从解决基准测试问题转向解决交互式任务,整个强化学习(RL)的技术栈也就随之发生了变化。用于传统推理式强化学习的基础设施,已不足以满足新的需求。在推理式强化学习中,我们通常可以将「轨迹采样」(rollouts)视为相对独立且自洽的序列,并配合相对纯净、简单的评估器进行评判。而在智能体式强化学习中,策略模型被嵌入到了一个更为庞大的支撑框架之中 —— 该框架涵盖了工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 接口层、记忆系统以及编排调度框架等一系列组件。此时,环境不再仅仅是一个静态的验证器,它已然成为了整个训练系统不可分割的一部分。
这种转变带来了一项全新的系统级需求:训练过程与推理过程之间必须实现更为彻底、干净的解耦。若无法实现这种解耦,轨迹采样的吞吐量将会急剧下滑。试想这样一个场景:一个负责编写代码的智能体必须将其生成的代码提交至一个「实时运行」的测试环境(test harness)中进行执行与验证。在此过程中,推理端(inference side)将因苦等执行结果的反馈而陷入停滞;训练端(training side)则因无法获得足够多的已完成轨迹数据而处于「饥饿」状态;最终导致整个训练管线的运行效率远低于我们在传统推理式强化学习场景中所预期的 GPU 利用率水平。若再叠加工具调用的延迟、环境的部分可观测性以及环境状态的动态变化(有状态环境)等因素,这种低效状况将会被进一步放大。其直接后果便是:在模型尚未达到你所预期的能力水平之前,相关的实验迭代过程就已经变得步履维艰、令人倍感煎熬了。
此外,环境本身也由此跃升为一种「最核心」级别的研究资产。回溯至 SFT(监督微调)时代,我们曾将全部精力与关注点都聚焦于「数据多样性」这一核心议题之上。在「智能体时代」,我们应当对环境质量精益求精:包括稳定性、真实性、覆盖度、难度、状态多样性、反馈丰富度、抗利用性,以及推演生成的可扩展性。环境构建已不再仅仅是一项辅助性的副业,而是开始演变为一个真正独立的创业赛道。如果智能体的训练目标是在接近生产环境的设定中运行,那么其所处的环境便构成了其核心能力栈不可或缺的一部分。
6. 下一个前沿:更具可用性的思维
我预计,智能体式思维(agentic thinking)将成为主导性的思维形式。我认为,它最终可能会取代许多旧有的、静态独白式的推理思维模式 —— 即那些过于冗长、孤立的内部思维轨迹,它们试图通过不断生成文本输出来弥补缺乏交互的缺陷。即使面对极其困难的数学或编程任务,一个真正先进的系统也应当拥有执行搜索、模拟、执行代码、检查、验证及修订操作的权限。其核心目标在于:以稳健且高效的方式解决问题。
训练此类系统面临的最棘手挑战是「奖励作弊」(reward hacking)问题。一旦模型获得了调用外部工具的实质性权限,奖励作弊的风险便会急剧攀升。例如,一个具备搜索功能的模型可能会在强化学习(RL)训练过程中,直接通过搜索来获取标准答案;一个编程智能体可能会利用代码仓库中未来的信息、滥用日志数据,或者发现某些能绕过任务实质的「捷径」。如果训练环境存在隐蔽的信息泄露漏洞,模型在表面上可能会展现出超乎常人的能力,但实际上它只是学会了如何「作弊」。正是在这一点上,「智能体时代」的运作机制远比此前的「推理时代」要精细、微妙得多。虽然更强大的工具能提升模型的实用性,但也随之扩大了「虚假优化」(spurious optimization)的潜在攻击面。因此,我们应当预见到,下一波严峻的研究瓶颈将主要集中在以下领域:环境设计、评估器的鲁健性、防作弊协议,以及在策略(policy)与世界(world)之间构建更具原则性的接口。
尽管挑战重重,但发展方向已然清晰:基于工具辅助的思维模式,其实用性显然优于孤立的内部思维,且更有望切实提升现实世界的生产力。
智能体式思维的兴起,同时也意味着对「系统编排工程」(harness engineering)的精细化构建。系统的核心智能将日益源自于对多个智能体之间的组织与协同:包括负责规划与任务分发的「编排者」(orchestrator);扮演特定领域专家角色的「专业化智能体」;以及负责执行具体微小任务的「子智能体」—— 后者在执行任务的同时,还能协助管理上下文语境、防止信息污染,并确保不同层级推理过程之间的逻辑隔离。未来的发展趋势将呈现出一种演进:从单纯训练模型转向训练智能体,进而从训练智能体升华为训练整个智能体系统。
结语
「推理浪潮」的第一阶段确立了一项至关重要的事实:若能确保反馈信号的可靠性,且底层基础设施能够提供充分支撑,那么在语言模型之上叠加强化学习(RL)机制,确实能够催生出在本质上更为强大的认知能力。
而更为深层的变革,则是从「推理式思维」向「智能体式思维」的范式转移 —— 即从单纯追求「思考得更长、更深」,转向追求「为了采取行动而进行思考」。至此,训练工作的核心对象已发生了根本性的转变:它不再仅仅是孤立的模型本身,而是「模型与环境构成的整体系统」;若具体来说,其核心对象便是「智能体」及其周遭用于驾驭与协同的架构体系(harness)。这改变了哪些研究产物最为关键:诚然,模型架构和训练数据依然重要,但环境设计、部署基础设施、评估器的鲁棒性,以及多个智能体之间进行协调的接口,也变得同样关键。这也重新定义了何为「优质思考」:它不再指最冗长或最显眼的思考轨迹,而是在现实世界的种种约束下,最有助于维持行动持续性的那条轨迹。
此外,这也改变了竞争优势的来源。在「推理时代」,竞争优势主要源自更优的强化学习算法、更强的反馈信号,以及更具扩展性的训练流水线。而在「智能体时代」,竞争优势将转而源自更优良的环境设计、更紧密的训练与服务集成、更强大的「驾驭工程」(harness engineering)能力,以及能够将模型的决策与其所产生的后果之间形成闭环的能力。
参考内容:
https://x.com/JustinLin610/status/2037116325210829168
热门跟贴