当基座模型还在卷参数规模时,阿里为什么把筹码押在"智能体编程"这个具体场景?

4月20日下午,阿里正式发布Qwen3.6-Max-Preview。这不是常规迭代,而是Qwen系列新一代旗舰的首个预览版。用户已能在Qwen Studio直接体验,阿里云百炼API也将同步开放调用。

打开网易新闻 查看精彩图片

六项编程基准集体登顶,幅度有多大?

先看硬数据。预览版在SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCode这六项关键基准上全部拿下最高分。

对比Qwen3.6-Plus,提升幅度相当具体:SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8。这不是"优化体验"式的模糊表述,而是可量化的能力跃迁。

世界知识维度同样扎实:SuperGPQA +2.3、QwenChineseBench +5.3。指令遵循方面,ToolcallFormatIFBench提升2.8个点。

一个值得注意的信号是:阿里选择用"预览版"而非"正式版"发布。官方明确表态"仍在积极迭代中",这种透明化迭代策略,在国产大模型发布节奏中并不常见。

智能体编程,为什么是兵家必争之地?

拆解这六项登顶的基准,能读出阿里的产品判断。

SWE-bench Pro测的是真实软件工程任务;Terminal-Bench 2.0和SciCode指向科研代码场景;QwenClawBench、QwenWebBench则覆盖工具调用与网页操作。这几乎覆盖了开发者从写代码到调工具的全链路。

阿里押注的逻辑很清晰:当模型能力突破临界点,"能对话"和"能干活"的代差将急剧放大。智能体编程正是"能干活"的核心战场——它要求模型理解意图、拆解任务、调用工具、修正错误,最终交付可运行的结果。

这不是技术炫技,而是直接切中企业客户的付费意愿。一个能自动修复Bug、搭建原型、处理科研代码的模型,比只会聊天的产品更接近商业化闭环。

预览版策略背后的用户思维

选择Qwen Studio作为首发体验入口,而非直接全量推送,透露了另一种产品思路。

开发者社区的真实反馈,正在成为模型迭代的核心数据源。预览版阶段的密集交互,能快速暴露边缘case,为后续正式版扫雷。这种"让用户参与打磨"的模式,在消费互联网领域常见,但在基座模型发布中仍是新鲜尝试。

阿里云百炼API的同步筹备,则说明商业化路径已经铺好。从体验到生产环境调用,链路被刻意缩短——企业用户不需要等待漫长的适配周期。

兴奋点在于:国产大模型的竞争维度正在切换。从"我的参数比你大"到"你的场景我能落地",Qwen3.6-Max-Preview的发布是一个标志性节点。当智能体编程能力成为硬通货,模型厂商的护城河将重新划定。

但一个关键问题悬而未决:在智能体编程这个赛道上,阿里率先亮出底牌,字节、百度、智谱的跟进节奏会如何?而开发者更关心的是——这些基准上的高分,转化为真实工作流中的效率提升,究竟需要多长的磨合期?