昨天深夜,阿里千问技术负责人林俊旸在离职后首次公开发声。他写了一篇长文,题目很学术——《From "Reasoning" Thinking to "Agentic" Thinking》——但核心判断很直白:大模型的下一波跃迁,不是靠把"思考时间"拉得更长,而是得学会一种新本事——为了干活而思考,边干边想,错了就改。
他管这叫"智能体思维"。
文章里有个挺少见的自我复盘。2025年初,Qwen团队想做一件听起来很合理的事:把"深度思考模式"和"快答模式"合并到同一个模型里。理想很丰满——模型自己判断,什么问题秒回,什么问题值得多想想,什么难题该砸更多算力。Qwen3就是这个思路的产物,业内首批搞"混合思维"的模型。
但林俊旸说,结果"并不理想"。
合并之后,深度思考变得啰嗦、犹豫;快答模式也不再干脆、稳定、便宜。问题不在模型开关,在数据——两种模式要的东西不一样,硬凑在一起不是取长补短,是两头受损。这有点像把马拉松选手和短跑选手塞进同一套训练计划,最后谁都没练出来。
这个失败让他重新想了一件事:大模型最好的思考方式,到底是什么样子?
他的答案,和Anthropic的路线对上了。Claude 3.7让用户控制"思考预算",Claude 4允许边想边用工具。核心不是输出更长的内心独白,是让思考真正服务于写代码、调工具、干长活。换句话说,思考的质量不由长度定义,而由它帮你在环境里推进了多少事来定义。
林俊旸把这个转变概括为:从"推理思维"走向"智能体思维"。
前者是静态的、内部的、一个人闷头想;后者是开放的、交互的、在行动里持续修正。未来的强模型,得能处理一类纯推理模型搞不定的问题:工具怎么用、环境怎么感知、计划怎么调整、多步任务怎么推进——这些正是最近被热议的"Harness Engineering"要解决的。
他判断,智能体能力的核心,越来越不只在模型本身,而在那套"脚手架"——环境、工具、约束、反馈循环、多智能体协作。Harness Engineering的价值,就是把一个"裸模型"变成能在现实任务里持续干活的Agent。
竞争焦点也在转移。推理时代,比的是强化学习算法、反馈信号、训练流水线;智能体时代,比的是谁能建出更好的环境、更紧密的训推协同、更强的Harness Engineering,以及谁能真正把模型决策和现实后果闭环起来。
文章最后,林俊旸提到Qwen团队已经明确写过:"我们正在从一个专注于训练模型的时代,转向一个以训练智能体为中心的时代。"而那个让他走人的"混合思维"实验,现在看更像是一次必要的弯路——它证明了"合并"不能是粗暴拼接,得让推理强度变成平滑光谱,让模型自适应选择,让思考真正嵌入行动。
至于Qwen3之后的产品线,2025年下半年已经拆成了独立的Instruct和Thinking更新。商业客户要的是快、便宜、可控;合并对他们来说,未必是礼物。