Qwen3.7-Max 登顶国产:Code Arena 编程榜单全球第四意味着什么

5 月 20 日,阿里千问发布 Qwen3.7-Max,定位「面向智能体时代的新一代旗舰模型」。5 天后(5 月 25 日),全球权威编程榜单 Code Arena 更新成绩:Qwen3.7-Max 得分1541 分,全球第四

这不是阿里第一次上榜。但这是国产模型第一次在编程能力维度,踩到了 Claude Opus 4.6 的头顶。

为什么这份榜单值得认真看

选模型最怕什么?厂商自测 + 送测 benchmark,数据漂亮,但换个场景就原形毕露。

Code Arena 的核心区别在于Anti-Gaming 机制

•用户随机盲测:提交任务的真实用户随机抽题,模型无法提前获知考题

•无法刷题:和 SuperCLUE 类「厂商送测 + 提前公布题库」的玩法本质不同

•全场景覆盖:评估模型在生成、调试、重构复杂真实代码时的能力,而非选择题

换句话说,这是目前全球人工智能领域含金量最高、最接近「模型在真实工程师手里能干什么」的评测维度之一。

打开网易新闻 查看精彩图片

1541 分在全球是什么位置

先看全局:

排名

模型

得分

#1

Claude Opus 4.7 Thinking

#2

Claude Opus 4.7

#3

Claude Opus 4.6 Thinking

#4

Qwen3.7-Max

1541

#5

Claude Opus 4.6

国产第一

Qwen3.7-Max

1541

比 Qwen3.7-Max 排位更高的,只有三款 Claude Opus 4.7 系列——都是 Anthropic 的旗舰产品线。而 Qwen3.7-Max 已经超越了 Claude Opus 4.6(非 Thinking 版)。

同时,它还超越了 GLM-5.1、Kimi-K2.6,稳坐国产编程模型头把交椅。

打开网易新闻 查看精彩图片

编程能力拆解:超过 Opus 4.6,好在哪里、差在哪里

不是所有「超越」都意味着全面碾压。看分项数据更准确:

Qwen3.7-Max 领先的基准:

SWE-Pro:60.6(代码缺陷修复)

SWE-Multilingual:78.3(多语言代码修复)

SciCode:53.5(科学代码生成)

QwenSVG:1608(SVG 可视化生成)

Terminal Bench 2.0-Terminus:69.7,超越 DS-V4-Pro Max(67.9)

与竞品相当的基准:

SWE-Verified:80.4,与 Opus-4.6 Max(80.8)、DS-V4-Pro Max(80.6)基本持平

这说明 Qwen3.7-Max 在日常代码缺陷修复、多语言场景、终端操作上有明确优势;在需要极限推理的 SWE-Verified 上与 Claude Opus 4.6 持平——考虑到 Opus 4.6 早发布时间差,这个成绩已经非常扎实。

为什么 Agent 维度才是真正的重头戏

编程榜单只是开胃菜。Qwen3.7-Max 真正的主战场是 Agent。

实测数据:

MCP-Mark:60.8(对比 GLM-5.1 的 57.5)

MCP-Atlas:76.4(对比 Opus-4.6 的 75.8)

Skillbench:59.2(对比 K2.6 的 56.2)

Kernel Bench L3:1.98 倍中位数加速,96% 加速率——GPU 内核优化能力

BFCL-V4:75.0;Qwenclaw:64.3;ClawEval:65.2(紧追 Opus-4.6 Max)

以上数据意味着什么?

35 小时、1000+ 次工具调用的全自主内核优化实验——这不是跑个 MATH benchmark 就完事的宣传话术。这是对 Agent 在真实长周期任务中「上下文膨胀 + 工具调用漂移」问题的直接验证。

用大白话说:Qwen3.7-Max 能让 Agent 在一个需要跑一两天、调用上千次工具的复杂任务里,保持推理连贯性不崩。这是 Claude Code、OpenClaw 等竞品都在正面竞争的核心能力。

打开网易新闻 查看精彩图片

开发者行动建议:什么时候值得切、关注什么

目前 Qwen3.7-Max 即将通过阿里云百炼 API 提供服务。正式上线后,建议按以下优先级测试:

优先级 1(立即可测)

class="language-python">"color:#6a9955"># 阿里云百炼 API 调用示例(百炼上线后)import openaiclient = openai.OpenAI(api_key="your_bailian_key",  "color:#6a9955"># 百炼 API Keybase_url="https://dashscope.aliyuncs.com/compatible-mode/v1"response = client.chat.completions.create(model="qwen3.7-max",messages=[{"role": "system", "content": "你是一个编程助手。"},{"role": "user", "content": "用 Python 实现一个 LRU 缓存。"}print(response.choices[0].message.content)

优先级 2(1-2 周内测):

将你当前项目里 Claude Opus 4.6 的典型任务迁移到 Qwen3.7-Max,对比:
- 代码生成质量(SWE-Bench 同期题目)
- 上下文保持能力(超过 32K token 的长文件重构)
- 工具调用稳定性(MCP 工具链对接)

优先级 3(长期关注):

百炼 API 定价与上下文窗口上限

与 Claude Code / OpenClaw 框架的集成文档

Design Arena 视觉设计榜单的后续表现

结语

1541 分不是终点。它证明的是一件事:国产模型在 Agent 赛道的工程化能力,正在快速缩短与国际顶线的差距

Code Arena 的盲测机制让这份成绩单比任何厂商自评都可信。下一步是 API 定价和真实工程场景的验证。

值得关注。

参考来源:

阿里千问官方发布(2026-05-20):Qwen3.7-Max 智能体旗舰发布

Code Arena 公开榜单(2026-05-25):https://code-arena.dev

Design Arena 公开榜单:https://design-arena.dev