阿里大模型负责人离职后首曝：Qwen3那个开关，我们搞砸了|qwen|大模型|我们搞砸了|推理|智能体|算法|阿里巴巴集团

昨天深夜，阿里千问技术负责人林俊旸在离职后首次公开发声。他写了一篇长文，题目很学术——《From "Reasoning" Thinking to "Agentic" Thinking》——但核心判断很直白：大模型的下一波跃迁，不是靠把"思考时间"拉得更长，而是得学会一种新本事——为了干活而思考，边干边想，错了就改。

他管这叫"智能体思维"。

文章里有个挺少见的自我复盘。2025年初，Qwen团队想做一件听起来很合理的事：把"深度思考模式"和"快答模式"合并到同一个模型里。理想很丰满——模型自己判断，什么问题秒回，什么问题值得多想想，什么难题该砸更多算力。Qwen3就是这个思路的产物，业内首批搞"混合思维"的模型。

但林俊旸说，结果"并不理想"。

合并之后，深度思考变得啰嗦、犹豫；快答模式也不再干脆、稳定、便宜。问题不在模型开关，在数据——两种模式要的东西不一样，硬凑在一起不是取长补短，是两头受损。这有点像把马拉松选手和短跑选手塞进同一套训练计划，最后谁都没练出来。

这个失败让他重新想了一件事：大模型最好的思考方式，到底是什么样子？

他的答案，和Anthropic的路线对上了。Claude 3.7让用户控制"思考预算"，Claude 4允许边想边用工具。核心不是输出更长的内心独白，是让思考真正服务于写代码、调工具、干长活。换句话说，思考的质量不由长度定义，而由它帮你在环境里推进了多少事来定义。

林俊旸把这个转变概括为：从"推理思维"走向"智能体思维"。

前者是静态的、内部的、一个人闷头想；后者是开放的、交互的、在行动里持续修正。未来的强模型，得能处理一类纯推理模型搞不定的问题：工具怎么用、环境怎么感知、计划怎么调整、多步任务怎么推进——这些正是最近被热议的"Harness Engineering"要解决的。

他判断，智能体能力的核心，越来越不只在模型本身，而在那套"脚手架"——环境、工具、约束、反馈循环、多智能体协作。Harness Engineering的价值，就是把一个"裸模型"变成能在现实任务里持续干活的Agent。

竞争焦点也在转移。推理时代，比的是强化学习算法、反馈信号、训练流水线；智能体时代，比的是谁能建出更好的环境、更紧密的训推协同、更强的Harness Engineering，以及谁能真正把模型决策和现实后果闭环起来。

文章最后，林俊旸提到Qwen团队已经明确写过："我们正在从一个专注于训练模型的时代，转向一个以训练智能体为中心的时代。"而那个让他走人的"混合思维"实验，现在看更像是一次必要的弯路——它证明了"合并"不能是粗暴拼接，得让推理强度变成平滑光谱，让模型自适应选择，让思考真正嵌入行动。

至于Qwen3之后的产品线，2025年下半年已经拆成了独立的Instruct和Thinking更新。商业客户要的是快、便宜、可控；合并对他们来说，未必是礼物。