阿里通义千问团队最近放出一个新模型Qwen3.7-Max,不走寻常路——没有用户界面,只开放API调用。官方定位很明确:这不是聊天机器人,而是能独立干活的"数字员工"。

这个模型的核心卖点是"长时间自主运行"。在一场真实测试中,它被丢去优化一段硬件加速代码,连续跑了35小时没人管,最后把性能提升了10倍。

打开网易新闻 查看精彩图片

测试场景相当硬核。目标是为开源推理框架SGLang优化一个注意力计算内核,跑在阿里平头哥自研的T-Head-ZW-M890 AI芯片上。模型训练时没见过这款芯片架构,手头没有硬件文档、没有测试数据、没有示例代码,只有一份用Triton语言写的参考实现。

35小时里,它自动执行了432次内核测试,发起1158次工具调用。编译报错自己修,性能瓶颈自己找,改完再测、测完再改。最终产出的代码比原版快10倍。

同场竞技的其他模型差距明显:智谱GLM 5.1做到7.3倍,Kimi K2.6是5倍,DeepSeek V4 Pro仅3.3倍,而上一代Qwen3.6-Plus几乎原地踏步只有1.1倍。有些模型中途就"罢工"了——连续五轮不调用工具,系统判定自动终止。

在标准化的KernelBench L3基准测试中,Qwen3.7-Max的加速成功率达到96%,仅次于Anthropic Opus 4.6的98%。

另一个值得注意的细节:开发团队还让这个模型参与了自身的"监考"工作——在训练过程中独立检测不良行为和作弊尝试。这种"自我监督"的设计在业界并不多见。

模型目前只通过阿里云Model Studio API提供服务,支持OpenAI和Anthropic兼容接口,能直接接入Claude Code、OpenClaw或Qwen Code等开发环境。官方列出的四大应用场景包括:从前端原型到复杂多文件项目的编程代理、调用外部工具的办公自动化、长时间自主运行任务、以及跨代理框架的稳定表现。

一个微妙的变化是开源策略的收缩。阿里曾经以开源Qwen系列著称,但旗舰模型的开放已经暂停——上一个开源大版本还是2026年2月的Qwen3.5-397B-A17B。Qwen3-Max、Qwen3.6-Plus再到现在的3.7-Max,都选择了闭源API路线。

35小时无人值守、10倍性能提升、给自己家的芯片写优化代码——这组数字背后,阿里似乎在押注一个趋势:下一代AI的竞争焦点,正在从"对话能力"转向"干活能力"。