阿里新模型自主运行35小时：给自己芯片写代码

摸鱼算法

2026-05-24 02:03 ·北京

阿里通义千问团队最近放出一个新模型Qwen3.7-Max，不走寻常路——没有用户界面，只开放API调用。官方定位很明确：这不是聊天机器人，而是能独立干活的"数字员工"。

这个模型的核心卖点是"长时间自主运行"。在一场真实测试中，它被丢去优化一段硬件加速代码，连续跑了35小时没人管，最后把性能提升了10倍。

测试场景相当硬核。目标是为开源推理框架SGLang优化一个注意力计算内核，跑在阿里平头哥自研的T-Head-ZW-M890 AI芯片上。模型训练时没见过这款芯片架构，手头没有硬件文档、没有测试数据、没有示例代码，只有一份用Triton语言写的参考实现。

35小时里，它自动执行了432次内核测试，发起1158次工具调用。编译报错自己修，性能瓶颈自己找，改完再测、测完再改。最终产出的代码比原版快10倍。

同场竞技的其他模型差距明显：智谱GLM 5.1做到7.3倍，Kimi K2.6是5倍，DeepSeek V4 Pro仅3.3倍，而上一代Qwen3.6-Plus几乎原地踏步只有1.1倍。有些模型中途就"罢工"了——连续五轮不调用工具，系统判定自动终止。

在标准化的KernelBench L3基准测试中，Qwen3.7-Max的加速成功率达到96%，仅次于Anthropic Opus 4.6的98%。

另一个值得注意的细节：开发团队还让这个模型参与了自身的"监考"工作——在训练过程中独立检测不良行为和作弊尝试。这种"自我监督"的设计在业界并不多见。

模型目前只通过阿里云Model Studio API提供服务，支持OpenAI和Anthropic兼容接口，能直接接入Claude Code、OpenClaw或Qwen Code等开发环境。官方列出的四大应用场景包括：从前端原型到复杂多文件项目的编程代理、调用外部工具的办公自动化、长时间自主运行任务、以及跨代理框架的稳定表现。

一个微妙的变化是开源策略的收缩。阿里曾经以开源Qwen系列著称，但旗舰模型的开放已经暂停——上一个开源大版本还是2026年2月的Qwen3.5-397B-A17B。Qwen3-Max、Qwen3.6-Plus再到现在的3.7-Max，都选择了闭源API路线。

35小时无人值守、10倍性能提升、给自己家的芯片写优化代码——这组数字背后，阿里似乎在押注一个趋势：下一代AI的竞争焦点，正在从"对话能力"转向"干活能力"。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴