林俊旸离职后首发长文复盘千问技术路线：坦言“没有全做对”|千问|复盘|技术路线|推理|智能体|林俊旸

3月31日，林俊旸在社交平台转发推文，提到“model+harness is now over model only”。Harness为模型提供工具调用、环境交互、反馈闭环等能力，被比作“智能体的操作系统”（Agent = Model + Harness）。

这与他3月26日离开阿里后首次公开发声的长文《From ‘Reasoning’ Thinking to ‘Agentic’ Thinking（从推理式思考到智能体思考）》观点一致。

全文未谈及离职风波，也未透露个人后续去向，而是将焦点全程放在大模型技术发展路线上，既系统分享了对行业未来的判断，也坦诚复盘了千问团队在模型技术探索中的得失。

林俊旸指出，过去两年行业对大模型的评估标准与核心期待已被重塑。OpenAI的o1模型证明“思考”可被专门训练，DeepSeek-R1则印证推理式后训练可规模化落地，这标志着行业重心已从预训练转向强化学习后训练，数学、代码等可验证领域成为优化模型正确性的关键。

他坦言，2025年上半年行业焦点仍集中在“推理式思考”，而如今行业亟需寻找新突破口，其答案便是“智能体式思考”。核心是“为了行动而思考”，即模型在与环境交互中根据反馈更新计划、修正行为，实现与现实世界的闭环互动。

同时，林俊旸也复盘了千问团队的技术探索。2025年初，团队曾尝试打造统一系统，融合思考与指令模式，Qwen3便是这一方向的具体尝试，但实际落地困难重重。“我们没有全做对。”他坦诚，两种模式的数据分布与核心目标存在本质冲突，强行融合导致模型两端表现平庸，无法满足商业用户需求。为此，2025年下半年千问推出了独立的Instruct和Thinking版本。他强调，真正的融合应是让模型拥有平滑的推理力度光谱，自主分配算力，而非生硬拼接两种模式。

“推理链更长，不等于模型更聪明。”林俊旸明确表示，过长的推理链实则是算力的浪费，行业正从“训练模型”向“训练智能体”加速转型。他进一步解释，推理式思考与智能体式思考的优化目标截然不同，前者以内部思辨质量为评判标准，后者则聚焦模型在环境交互中能否持续取得进展，这也让行业核心问题从“能否想够久”转变为“能否支撑有效行动”。

随之而来的是训练核心的转变，即从单一模型转向“模型+环境”的完整系统，这就要求训练与推理实现彻底解耦。林俊旸最终指出，环境设计、相关基础设施等已成为行业核心竞争力，“好的思考”是能支撑有效行动的路径，未来防范“奖励作弊”将是关键挑战，而智能体式思考终将成为行业主流。