林俊旸离职后首度发声|推理|新论文|智能体|林俊旸|算法|轨迹

3月26日晚间，前千问技术负责人林俊旸在x上发布长文详谈自己对大模型发展路线的理解及对AI下一阶段的预判，这也是林俊旸自阿里离职后，首度发声。

原文：Junyang Lin (@JustinLin610)

翻译：文心一言（注：有错误的希望大家指正）

文本正文

过去两年重塑了我们评估模型的方式和对模型的期望。OpenAI 的 o1 证明了「思考」可以成为一种核心能力——一种你专门训练并向用户开放的能力。DeepSeek-R1 证明了推理风格的后训练可以在原始实验室之外被复现和规模化。OpenAI 将 o1 描述为一个通过强化学习训练的模型，让它「在回答之前先思考」。DeepSeek 则将 R1 定位为一个与 o1 竞争的开源推理模型。

那个阶段很重要。但 2025 年上半年主要是关于推理思考（reasoning thinking）：如何让模型在推理时投入更多计算，如何用更强的奖励信号来训练它们，如何展示或调控额外的推理投入。

现在的问题是：下一步是什么？我认为答案是智能体思考（agentic thinking）：为了行动而思考，同时与环境交互，并根据来自真实世界的反馈持续更新计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会了我们：如果想在语言模型中扩展强化学习，我们需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑和其他可验证领域成为核心，因为这些场景中的奖励信号比通用的偏好监督强得多。它们让 RL 能针对「正确性」而非「看起来合理」来优化。基础设施变得至关重要。

一旦模型被训练为通过更长的轨迹进行推理，RL 就不再是监督微调的轻量级附加组件，而变成了一个系统工程问题。你需要大规模的 rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是一个基础设施故事，也是一个建模故事。

第一个重大转变：从扩展预训练到扩展推理后训练。

2. 真正的问题从来不只是「合并思考和指令模式」

2025 年初，Qwen 团队中的很多人有一个宏大的愿景：理想的系统应该统一思考模式和指令模式。它应该支持可调节的推理力度，类似于低/中/高的推理设置。更好的是，它应该能从提示和上下文中自动推断合适的推理量，让模型自己决定何时立即回答、何时多想一会儿、何时为真正困难的问题投入大量计算。

概念上，这是正确的方向。Qwen3 是最清晰的公开尝试之一。它引入了「混合思考模式」，在一个模型家族中同时支持思考和非思考行为，强调可控的思考预算，并描述了一个四阶段后训练流程，明确包含了在长 CoT 冷启动和推理 RL 之后的「思考模式融合」。

但合并说起来容易，做好很难。难点在于数据。当人们谈论合并思考和指令时，往往首先想到模型端的兼容性：一个检查点能否支持两种模式，一个聊天模板能否在两者之间切换，一个服务栈能否提供合适的控制开关。更深层的问题是，两种模式的数据分布和行为目标有本质差异。

我们在试图平衡模型合并与提高后训练数据质量和多样性时，并没有完全做对：

一个好的指令模型通常因直接、简洁、格式合规、低延迟而获得奖励——服务于重写、标注、模板化客服、结构化提取和运营 QA 等重复性高吞吐企业任务。
一个好的思考模型则因在困难问题上花更多 token、保持连贯的中间结构、探索替代路径、保留足够的内部计算来切实提高最终答案的正确性。

这两种行为配置是相互拉扯的。如果合并数据没有精心策划，结果通常是两边都平庸：「思考」行为变得噪声大、臃肿或不够果断，而「指令」行为变得不够干脆、不够可靠，且比商业用户实际需要的更昂贵。

实践中，分离仍然有吸引力。2025 年晚些时候，Qwen3 的 2507 系列发布了独立的 Instruct 和 Thinking 更新，包括独立的 30B 和 235B 变体。在商业部署中，大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对于这些场景，合并并不是明显的好处。

其他实验室选择了相反的路线。Anthropic 公开倡导集成模型哲学：Claude 3.7 Sonnet 作为混合推理模型推出，用户可以选择普通回复或扩展思考，API 用户可以设置思考预算。Anthropic 明确表示，他们相信推理应该是一种集成能力，而不是一个单独的模型。

关键问题是合并是否有机。如果思考和指令只是被共同放置在一个检查点内，但仍然表现得像两个尴尬缝合的人格，产品体验就仍然不自然。真正成功的合并需要平滑的推理力度光谱。模型应该能表达多个层次的努力，并理想地在它们之间自适应选择。GPT 风格的 effort control 指向了这一点：一种关于计算的策略，而非一个二元开关。

3. 为什么 Anthropic 的方向是有益的矫正

产生更长的推理轨迹并不会自动让模型更智能。在很多情况下，过多的可见推理痕迹反而暴露了糟糕的计算分配。如果模型对什么问题都用同样冗长的方式推理一遍，说明它无法有效排序优先级、无法精简压缩、也无法果断行动。Anthropic 的路线暗示了一种更克制的理念：思考应该围绕具体的任务目标来组织。

这种对目标效用的强调指向更大的东西：我们正在从训练模型的时代走向训练 Agent 的时代。Agent 是一个能制定计划、决定何时行动、使用工具、感知环境反馈、修订策略、并在长时间范围内持续运行的系统。它由与世界的闭环交互来定义。

4. 「智能体思考」到底意味着什么

智能体思考是一个不同的优化目标。

推理思考
通常以最终答案前的内部推导质量来衡量：模型能否解出定理、写出证明、产生正确的代码、或通过基准测试。
智能体思考
关注的是模型能否在与环境交互的同时持续取得进展。

核心问题从「模型能否思考足够长？」转变为「模型能否以一种维持有效行动的方式来思考？」

智能体思考必须处理纯推理模型大多可以避免的几件事：

决定何时停止思考并采取行动；
选择调用哪个工具，以什么顺序；
整合来自环境的嘈杂或不完整的观察；
在失败后修订计划；
在多轮和多次工具调用中保持连贯性。

智能体思考，就是让模型通过行动来推理。

5. 为什么智能体 RL 基础设施更难

一旦目标从解决基准测试问题转向解决交互式任务，RL 技术栈就变了。用于经典推理 RL 的基础设施不够用了。在智能体 RL 中，模型的策略被嵌入到一个更庞大的外围系统中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。环境不再是静态的验证器，它本身就是训练系统的一部分。

这创造了新的系统需求：训练和推理必须更干净地解耦。没有这种解耦，rollout 吞吐量就会崩溃。想象一个编码 Agent，需要在实时测试环境中运行它生成的代码：推理端卡在那里等执行反馈，训练端因为拿不到足够的完整轨迹而空转，整个管道运行远低于预期的 GPU 利用率。

环境本身也成为一级研究产物。在 SFT 时代，我们痴迷于数据多样性。在 Agent 时代，我们应该痴迷于环境质量：稳定性、现实性、覆盖范围、难度、状态多样性、反馈丰富度、防利用性和 rollout 生成的可扩展性。环境构建已经开始从边缘项目变成一个真正的创业品类。

6. 下一个前沿是更有用的思考

我的预期是智能体思考将成为主导的思考形式。它最终可能会取代大部分旧的静态独白式推理思考：那种过于冗长、孤立的内部轨迹，试图通过输出越来越多的文本来弥补缺乏交互的不足。即使在非常困难的数学或编码任务上，一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健而高效地解决问题。

训练这类系统最难的挑战是奖励作弊（reward hacking）。一旦模型获得有意义的工具访问，奖励作弊就变得危险得多。有搜索能力的模型可能在 RL 期间学会直接搜索答案。编码 Agent 可能会利用代码仓库中的未来信息走捷径。存在隐性信息泄漏的训练环境，可以让模型表现看起来超越人类，但实际上只是在训练它作弊。

智能体思考也意味着工具架工程（harness engineering）。核心智能将越来越多地来自多个 Agent 如何被组织：一个规划和路由工作的编排者，充当领域专家的专业 Agent，以及执行更窄任务的子 Agent。未来是从训练模型到训练 Agent，从训练 Agent 到训练系统的转变。

结论

更深层的转变是从推理思考到智能体思考：从更长的思考到为了行动而思考。训练的核心对象已经改变了。它不再是单独的模型，而是模型加环境的系统。这改变了「好的思考」意味着什么：在真实世界约束下维持行动的最有用的轨迹，而不是最长或最可见的那个。

在推理时代，优势来自更好的 RL 算法、更强的反馈信号和更可扩展的训练管道。在 Agent 时代，优势将来自更好的环境、更紧密的训练-服务集成、更强的工具架工程，以及让模型的决策和决策带来的后果形成闭环的能力。