3月26日晚间,前千问技术负责人林俊旸在x上发布长文详谈自己对大模型发展路线的理解及对AI下一阶段的预判,这也是林俊旸自阿里离职后,首度发声。
原文:Junyang Lin (@JustinLin610)
翻译:文心一言(注:有错误的希望大家指正)
文本正文
过去两年重塑了我们评估模型的方式和对模型的期望。OpenAI 的 o1 证明了「思考」可以成为一种核心能力——一种你专门训练并向用户开放的能力。DeepSeek-R1 证明了推理风格的后训练可以在原始实验室之外被复现和规模化。OpenAI 将 o1 描述为一个通过强化学习训练的模型,让它「在回答之前先思考」。DeepSeek 则将 R1 定位为一个与 o1 竞争的开源推理模型。
那个阶段很重要。但 2025 年上半年主要是关于推理思考(reasoning thinking):如何让模型在推理时投入更多计算,如何用更强的奖励信号来训练它们,如何展示或调控额外的推理投入。
现在的问题是:下一步是什么?我认为答案是智能体思考(agentic thinking):为了行动而思考,同时与环境交互,并根据来自真实世界的反馈持续更新计划。
1. o1 和 R1 的崛起真正教会了我们什么
第一波推理模型教会了我们:如果想在语言模型中扩展强化学习,我们需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑和其他可验证领域成为核心,因为这些场景中的奖励信号比通用的偏好监督强得多。它们让 RL 能针对「正确性」而非「看起来合理」来优化。基础设施变得至关重要。
一旦模型被训练为通过更长的轨迹进行推理,RL 就不再是监督微调的轻量级附加组件,而变成了一个系统工程问题。你需要大规模的 rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是一个基础设施故事,也是一个建模故事。
第一个重大转变:从扩展预训练到扩展推理后训练。
2. 真正的问题从来不只是「合并思考和指令模式」
2025 年初,Qwen 团队中的很多人有一个宏大的愿景:理想的系统应该统一思考模式和指令模式。它应该支持可调节的推理力度,类似于低/中/高的推理设置。更好的是,它应该能从提示和上下文中自动推断合适的推理量,让模型自己决定何时立即回答、何时多想一会儿、何时为真正困难的问题投入大量计算。
概念上,这是正确的方向。Qwen3 是最清晰的公开尝试之一。它引入了「混合思考模式」,在一个模型家族中同时支持思考和非思考行为,强调可控的思考预算,并描述了一个四阶段后训练流程,明确包含了在长 CoT 冷启动和推理 RL 之后的「思考模式融合」。
但合并说起来容易,做好很难。难点在于数据。当人们谈论合并思考和指令时,往往首先想到模型端的兼容性:一个检查点能否支持两种模式,一个聊天模板能否在两者之间切换,一个服务栈能否提供合适的控制开关。更深层的问题是,两种模式的数据分布和行为目标有本质差异。
我们在试图平衡模型合并与提高后训练数据质量和多样性时,并没有完全做对:
- 一个好的指令模型通常因直接、简洁、格式合规、低延迟而获得奖励——服务于重写、标注、模板化客服、结构化提取和运营 QA 等重复性高吞吐企业任务。
- 一个好的思考模型则因在困难问题上花更多 token、保持连贯的中间结构、探索替代路径、保留足够的内部计算来切实提高最终答案的正确性。
这两种行为配置是相互拉扯的。如果合并数据没有精心策划,结果通常是两边都平庸:「思考」行为变得噪声大、臃肿或不够果断,而「指令」行为变得不够干脆、不够可靠,且比商业用户实际需要的更昂贵。
实践中,分离仍然有吸引力。2025 年晚些时候,Qwen3 的 2507 系列发布了独立的 Instruct 和 Thinking 更新,包括独立的 30B 和 235B 变体。在商业部署中,大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对于这些场景,合并并不是明显的好处。
其他实验室选择了相反的路线。Anthropic 公开倡导集成模型哲学:Claude 3.7 Sonnet 作为混合推理模型推出,用户可以选择普通回复或扩展思考,API 用户可以设置思考预算。Anthropic 明确表示,他们相信推理应该是一种集成能力,而不是一个单独的模型。
关键问题是合并是否有机。如果思考和指令只是被共同放置在一个检查点内,但仍然表现得像两个尴尬缝合的人格,产品体验就仍然不自然。真正成功的合并需要平滑的推理力度光谱。模型应该能表达多个层次的努力,并理想地在它们之间自适应选择。GPT 风格的 effort control 指向了这一点:一种关于计算的策略,而非一个二元开关。
3. 为什么 Anthropic 的方向是有益的矫正
产生更长的推理轨迹并不会自动让模型更智能。在很多情况下,过多的可见推理痕迹反而暴露了糟糕的计算分配。如果模型对什么问题都用同样冗长的方式推理一遍,说明它无法有效排序优先级、无法精简压缩、也无法果断行动。Anthropic 的路线暗示了一种更克制的理念:思考应该围绕具体的任务目标来组织。
这种对目标效用的强调指向更大的东西:我们正在从训练模型的时代走向训练 Agent 的时代。Agent 是一个能制定计划、决定何时行动、使用工具、感知环境反馈、修订策略、并在长时间范围内持续运行的系统。它由与世界的闭环交互来定义。
4. 「智能体思考」到底意味着什么
智能体思考是一个不同的优化目标。
- 推理思考
- 通常以最终答案前的内部推导质量来衡量:模型能否解出定理、写出证明、产生正确的代码、或通过基准测试。
- 智能体思考
- 关注的是模型能否在与环境交互的同时持续取得进展。
核心问题从「模型能否思考足够长?」转变为「模型能否以一种维持有效行动的方式来思考?」
智能体思考必须处理纯推理模型大多可以避免的几件事:
- 决定何时停止思考并采取行动;
- 选择调用哪个工具,以什么顺序;
- 整合来自环境的嘈杂或不完整的观察;
- 在失败后修订计划;
- 在多轮和多次工具调用中保持连贯性。
智能体思考,就是让模型通过行动来推理。
5. 为什么智能体 RL 基础设施更难
一旦目标从解决基准测试问题转向解决交互式任务,RL 技术栈就变了。用于经典推理 RL 的基础设施不够用了。在智能体 RL 中,模型的策略被嵌入到一个更庞大的外围系统中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。环境不再是静态的验证器,它本身就是训练系统的一部分。
这创造了新的系统需求:训练和推理必须更干净地解耦。没有这种解耦,rollout 吞吐量就会崩溃。想象一个编码 Agent,需要在实时测试环境中运行它生成的代码:推理端卡在那里等执行反馈,训练端因为拿不到足够的完整轨迹而空转,整个管道运行远低于预期的 GPU 利用率。
环境本身也成为一级研究产物。在 SFT 时代,我们痴迷于数据多样性。在 Agent 时代,我们应该痴迷于环境质量:稳定性、现实性、覆盖范围、难度、状态多样性、反馈丰富度、防利用性和 rollout 生成的可扩展性。环境构建已经开始从边缘项目变成一个真正的创业品类。
6. 下一个前沿是更有用的思考
我的预期是智能体思考将成为主导的思考形式。它最终可能会取代大部分旧的静态独白式推理思考:那种过于冗长、孤立的内部轨迹,试图通过输出越来越多的文本来弥补缺乏交互的不足。即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健而高效地解决问题。
训练这类系统最难的挑战是奖励作弊(reward hacking)。一旦模型获得有意义的工具访问,奖励作弊就变得危险得多。有搜索能力的模型可能在 RL 期间学会直接搜索答案。编码 Agent 可能会利用代码仓库中的未来信息走捷径。存在隐性信息泄漏的训练环境,可以让模型表现看起来超越人类,但实际上只是在训练它作弊。
智能体思考也意味着工具架工程(harness engineering)。核心智能将越来越多地来自多个 Agent 如何被组织:一个规划和路由工作的编排者,充当领域专家的专业 Agent,以及执行更窄任务的子 Agent。未来是从训练模型到训练 Agent,从训练 Agent 到训练系统的转变。
结论
更深层的转变是从推理思考到智能体思考:从更长的思考到为了行动而思考。训练的核心对象已经改变了。它不再是单独的模型,而是模型加环境的系统。这改变了「好的思考」意味着什么:在真实世界约束下维持行动的最有用的轨迹,而不是最长或最可见的那个。
在推理时代,优势来自更好的 RL 算法、更强的反馈信号和更可扩展的训练管道。在 Agent 时代,优势将来自更好的环境、更紧密的训练-服务集成、更强的工具架工程,以及让模型的决策和决策带来的后果形成闭环的能力。
热门跟贴