2月3日晚,阿里开源新一代智能体编程模型Qwen3-Coder-Next,仅激活3B,其智能体编程性能就可媲美DeepSeek-V3.2、GLM-4.7等顶级开源模型。千问新编程模型实现了智能体训练上的创新性扩展(Scaling),可像个专业又精准的程序员一样边思考边编程,打开了小型模型处理长上下文和复杂智能体任务的全新空间。基于技术新突破,“小快灵”的Qwen3-Coder-Next推理成本显著降低,仅为同等性能模型成本开销的5%~10%,特别适用于家用电脑、轻量服务器等低成本智能体部署场景,也是目前Agent编程能力最强的小型开源编程模型。

打开网易新闻 查看精彩图片

AI编程是大模型最重要的基础能力,如何提升模型使用工具的Agent能力,成为进一步突破编程能力天花板的关键。基于Qwen3-Next新架构,Qwen3-Coder-Next专门面向编程智能体打造,总参数80B仅激活3B,是小型混合线性MoE模型,拥有出色的编程和智能体能力:在权威的SWE-Bench Verified基准测试中,新模型使用SWE-Agent框架,问题解决率成功突破70%,在多语言设置及更具挑战性的SWE-Bench-Pro测试中表现亮眼;在TerminalBench 2.0、Aider等智能体评测中,千问新模型仅激活3B,就能匹敌甚至超过DeepSeek-V3.2、GLM-4.7、MiniMax-M2.1等更大规模的开源模型。

智能体训练扩展,是千问新模型实现编程与Agent能力提升的关键。与主流AI编程模型习惯根据“标准问题”提供“标准答案”不同,Qwen3-Coder-Next采取了一条全新的训练扩展路线:通过使用大规模的可验证编程任务与可执行环境进行训练,让模型在真实环境反馈中“边干边学”,从而让模型学习到程序员处理现实编程问题的“精髓”。基于此,在面临现实世界中令Agent头疼的长上下文推理、工具使用、从执行失败中恢复等难题,千问新模型都能从容应对。

打开网易新闻 查看精彩图片

根据模型规模与 SWE-Bench-Pro 表现之间的帕累托前沿(Pareto frontier)关系对比图,Qwen3-Coder-Next激活3B参数的性能表现,可与激活参数量高10倍到20倍的模型相当,这相当于同样的性能却节省了90%到95%的推理开销;在面向低成本智能体部署方面,Qwen3-Coder-Next 也处于强势的帕累托前沿地位,更适合本地端侧部署,让小型混合线性模型也能支撑实用且有竞争力的编程智能体。

Qwen3-Coder-Next共开源基座(Base)模型和指令微调(Instruct)模型两大版本,已在魔搭社区、Hugging Face等平台开源上线,全球开发者和中小企业都可以免费下载商用。Qwen3-Coder-Next可轻松集成到多种下游应用中,比如OpenClaw、Qwen Code、Claude Code、Web 开发、浏览器使用、Cline 等,实现轻巧高效的智能体编程。

(完)