打开网易新闻 查看精彩图片

三个月内,三款旗舰。

作者丨吴海明

编辑丨马晓宁 梁丙鉴

5 月 20 日,阿里云峰会上,通义千问团队正式发布 Qwen3.7-Max。

这已经是三个月内的第三个旗舰版本了。3 月 20 日 Qwen3.5-Max-Preview 问世,4 月 20 日的 Qwen3.6-Max-Preview,再到这次的 Qwen3.7-Max 正式版,每 30 天一款旗舰模型的迭代速度,放眼全球大模型厂商,几乎无人能出其右。

榜单数据证明了千问最近的火线更新不是灌水之作。在 Artificial Analysis Intelligence Index v4.0 上,Qwen3.7-Max 以 56.6 分位列全球第 5。在它之前的分别是GPT-5.5(60.2)、Claude Opus 4.7(57.3)、Gemini 3.1 Pro Preview(57.2)和 GPT-5.4(56.8)。而值得关注的是,一个月前的 Qwen3.6 Max Preview 在这份测试中的表现还只有 51.8 分。30 天涨 4.8 分,在这个分数段,远远不是靠微调就能做到的事情。

打开网易新闻 查看精彩图片

此外根据官方放出的跑分结果,Qwen3.7-Max 在数项权威评测中也位居前列。

▪ 编程智能体:Qwen3.7-Max 在 Terminal Bench 2.0-Terminus 得分 69.7,超过了 DeepSeek-v4-pro-Max、Claude-Opus4.6 等一众顶尖模型;

通用智能体:在 MCP-Atlas、MCP-Mark、Skillbench 等现实能力测试中力压 GLM5.1、Kimi-K2.6 等国产模型,较前代提升显著,并且在 Kernel Bench L3上展示了强大的 GPU 内核优化能力;

推理能力:在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等推理核心测评中均超越了 Claude-Opus4.6 及所有国产模型,拿下国产模型新 SOTA 的宝座;

通用能力与多语言:在指令遵循 IFBench 评测中得分 79.1 分,突破新高,在多语言理解和翻译的WMT24++、MAXIFE评测中领先;

在这份长长的成绩单中,有两个能力维度上的表现格外亮眼。

一是推理。Qwen3.7-Max 在 GPQA Diamond 上拿下了 92.4 的分数,作为对比的是 Claude Opus 4.6 的 91.3。对这两款顶尖模型而言,三分之差已经不是挤牙膏式的性能提升。更亮眼的是,Qwen3.7-Max 在数学推理(Apex Math Reasoning)上领先 Opus 近三成,这是国产模型首次在“硬推理”上跻身全球第一梯队。

二是编程 Agent 能力。在 SWE-bench 系列测试中,Qwen3.7-Max 超过 Claude Opus 4.6-Max 和 Kimi-K2.6,Terminal Bench 2.0 较前代提升 6.9pp,这背后是从写代码,到理解 issue、定位 bug、编写修复 patch,从编程助手到编程智能体的关键跨越。

看懂了这份成绩单,就会明白这届阿里云峰会描绘了如何宏大的一副愿景。还记得峰会上那个 35 小时的 Demo 吗?Qwen3.7-Max 在平头哥真武 M890 芯片,一个训练时从未见过的国产硬件平台上,自主完成了推理内核优化,速度提升 10 倍。

这个 Demo 的战略意义远超技术本身,它指向一个更大的命题。迁移成本为模型公司带来的工程停滞和精度风险,是 CUDA 生态最深的护城河之一。但如果 Qwen3.7-Max 已经摸到了自主针对国产芯片编写优化软件栈的性能阈值,那么前者的生态壁垒便几乎不复存在。

01

核心成绩单:超强的推理和编程能力

“全球第五、国产第一”的成绩已经足够醒目,这一跃升背后是 Qwen3.7-Max 在推理、数学、代码、Agent 执行几条关键能力线上的同时抬升。换言之,Qwen3.7-Max 今天的排名不是靠着在某个单项上把分数刷高,而是在大模型从 Chatbot 走向 Agent 的核心赛道上,补齐了最难的几块拼图。

打开网易新闻 查看精彩图片

之前已经提到,Qwen3.7-Max 是国产模型第一次跻身“硬推理”的前列。

GPQA Diamond 是当前衡量大模型高难科学推理能力的重要基准之一,涵盖物理、化学、生物等研究生级别问题。相比普通知识问答,它更考验模型的多步逻辑推演能力、跨学科知识整合能力、对干扰项的识别能力、在不确定条件下保持推理一致性的能力。

能在这一项目上拿到 92.4 分,意味着 Qwen3.7-Max 不只是依靠中文能力、应用场景或工程调优获得优势,而是在全球最难的一类推理测试中,开始和最强闭源模型正面竞争。

在更难的 Humanity’s Last Exam 上,Qwen3.7-Max 同样没有掉队。

这个榜单考察的是“推理 + 知识”的综合硬度,题目覆盖范围更广、知识颗粒度更细,也更难通过单一能力刷分。图中,Qwen3.7-Max 拿到 38%,位列全球头部阵营,排在它前面的选手包括 Gemini 3.1 Pro、GPT-5.5、GPT-5.4、Gemini 3.5 Flash、Claude Opus 4.7 等少数几款旗舰模型。

这同样可以视为 Qwen3.7-Max 综合能力全面走向成熟的例证。表面的测试单项之下,仍然能划分出诸多原子能力,对于 HLE 而言它们可能是长链推理、跨学科知识、多步分析、隐含条件理解和高噪声问题。HLE 高分成绩的含金量也在于此,诸多原子能力的结合考察,彻底堵死了 RL 刷题、专项优化和模板化 COT 的“刷分三板斧”。

全球旗舰的竞争,在这种维度的测试上才有说服力。

打开网易新闻 查看精彩图片

推理能力决定模型能不能“想明白”,编程 Agent 能力则决定模型能不能“把活干完”。在这一点上,Qwen3.7-Max 也没有让人失望。

编程 Agent 的差距,首先体现在 Terminal Bench 2.0-Terminus。这项测试考察的不是“写一个函数”类型的单项任务,而是在终端里完成包括查文件、跑命令、读报错、改代码、再验证的连续操作。Qwen3.7-Max 拿到69.7 分,已经能够说明它和真实开发者工作方式之间更近一步的距离。

而即使在竞争最激烈的 SWE-Verified 上,Qwen3.7-Max 也拿到了 80.4,与 Opus-4.6 Max 的 80.8、DS-V4-Pro Max 的 80.6 几乎持平。前者在 Claude Code 和 Codex 用户圈中有着出名的稳定口碑,后者更是公认的性价比之王。BenchMark 上这样的名次格局,意味着 Qwen3.7-Max 已经在 软件工程 Agent 第一梯队中站住了脚跟。

更细分的代码任务里,Qwen3.7-Max 在 SciCode 上拿到 53.5,超过 K2.6 Thinking 和 Opus-4.6 Max。这说明它在科学计算代码、复杂逻辑实现上也具备较强稳定性。

前端和可视化任务同样值得注意。QwenSVG 达到 1608,为该组最高;QwenWebDev 为 1568,处于第一梯队。

这些指标共同拼出了一副完整的 Qwen3.7-Max 能力图景。比起仅仅补全代码,它更加傲人的是开始具备了完整的工程执行能力,这意味着理解需求、定位 bug、修改代码、运行测试、提交 patch,这些过去属于工程师的连续动作,正在被模型逐步接管。

这也解释了,它为什么适合被放进 Claude Code 这样的 Agent CLI 中实测。真正的编程智能体,看的不是单次生成有多漂亮,而是能否在一个真实项目里,把问题一路解决到最后。那么Qwen3.7-Max 水平到底如何,我们为它设计了一些任务。

02

逻辑推理实测:

玻璃过门与数学公式完形

我们在 Claude Code 环境下接入 Qwen3.7-Max,实测也围绕着推理和 Coding 能力展开。

打开网易新闻 查看精彩图片

首先是一个很经典的玻璃过门问题。

题目:

代码块

6米长4.5宽的玻璃能否通过高4米宽3米的门?请给出推理过程

Qwen3.7-Max 的回答如下:

打开网易新闻 查看精彩图片

面对这道经典空间推理题, 这个问题的陷阱在于,不能简单比较玻璃边长和门的宽高。Qwen3.7-Max 给出的结论是“可以”,并很快抓住关键:门洞对角线为 5 米,玻璃的 4.5 米宽度可以沿门洞对角线方向放置,而 6 米长度则沿门的纵深方向逐步穿过。

更重要的是,它没有停留在“4.5 米小于 5 米”的粗略判断,而是继续做了投影验证。模型将 4.5 米线段居中放在门洞对角线方向上,计算出其水平方向半投影为 1.35 米,小于门宽一半的 1.5 米;竖直方向半投影为 1.8 米,小于门高一半的 2 米。也就是说,这块玻璃在门平面上的截面能够完整落入门框内,且上下左右都有余量。

Qwen3.7-Max 没有被“6 米和 4.5 米都大于门宽高”的直觉误导,把问题转化成三维穿过路径和二维截面约束。它先找到关键几何关系,再做边界验证,最后解释 6 米长度为何不构成限制。对一款推理模型来说,这远比单纯答对更重要。它说明模型具备把现实问题结构化、拆解约束并完成可验证推理的能力。

另外一项测试是数学公式完形,这类题目也被广泛用于考验模型的推理能力。

题目:

代码块

在数字3、7、5之间添加适当的数学符号(不改变数字顺序),使得等式 `3 7 5 = 8` 成立。

打开网易新闻 查看精彩图片

Qwen3.7-Max 给出的答案是 3! + 7 - 5 = 8。这个解法的关键在于引入阶乘符号,将 3 转换为 6,再通过简单加减得到结果:6 + 7 - 5 = 8。

重要的是过程,Qwen3.7-Max 并不是直接猜出答案,而是先尝试排除只使用加减乘除的情况。它枚举了 3、7、5 之间两处符号的基础组合,并进一步考虑括号变体,判断纯四则运算无法得到 8。随后,模型才转向更高阶的数学符号,找到阶乘这个突破口。

Qwen3.7-Max 的回答显示,它能够先在常规解空间中验证不可行,再扩展到非常规符号空间。这种思考方式,非常接近人类。而事实上,这类能力对于 Agent 同样重要。当常规路径走不通时,模型能否主动扩大搜索范围,往往决定任务能不能继续推进。

03

Coding 实测:从数据可视化到 3D 建模

Coding 能力测试的部分,我们选择让 Qwen3.7-Max 完成一项数据分析可视化开发。

题目:

代码块

1 请从零开发一个本地数据可视化网页工具,用户上传 Excel 文件后,自动读取数据并展示表格预览。

2 工具需要自动识别数值列,生成柱状图、折线图和饼图,并支持选择不同字段进行可视化。

3 页面要简洁美观,普通用户打开浏览器即可使用,不依赖后端。

4 请给出完整文件结构、全部代码和运行方法。

5 最后说明这个工具测试了 Agent 的哪些能力。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在这道题中,我们给 Qwen3.7-Max 的任务是从零开发一个本地数据可视化网页工具。要求并不只是写一个页面,而是要完成 Excel 上传、数据解析、表格预览、数值列识别、图表生成、字段切换、无后端运行等一整套功能。Qwen3.7-Max 最终生成了一个四文件项目:index.html、style.css、app.js 和 README.md,并明确给出运行方式,既可以直接双击 index.html,也可以通过python3 -m http.server 8080在本地启动。

从生成结果看,它选择了比较合理的前端技术路线,用 SheetJS 解析 Excel,用 Chart.js 渲染图表,通过 CDN 引入第三方库,避免后端依赖。代码结构也比较完整,index.html 负责页面骨架,style.css 负责响应式布局和视觉样式,app.js 承担文件读取、数据转换、状态管理和图表配置。

很像是专业开发者的一处表现是,模型还补充了 README,以说明功能清单和使用方法,这让整体结果更像一个可交付的小型前端项目,而不是一段孤立的 demo 代码。

打开网易新闻 查看精彩图片

打开网页,上传区设计简洁,支持拖拽或点击选择 .xlsx、.xls、.csv 文件。上传 Excel 后,工具可以读取数据并生成预览表格,识别出行数、列数和数值字段;在测试文件中,它展示了 13196 行、11 列数据,并识别出 9 个数值列。页面下方还能根据选择的 X 轴和 Y 轴字段生成可视化图表,支持柱状图、折线图和饼图切换。

打开网易新闻 查看精彩图片

这个测试真正考察的是 Agent 的工程闭环能力。Qwen3.7-Max 需要先拆解需求,再完成库选型、文件组织、前端交互、数据处理、图表渲染和运行说明。这些需求让任务更接近真实开发流程,写对代码是最基本的要求,模型还要保证多个文件之间能协同工作,最终让普通用户在浏览器中直接使用。因此 Qwen3.7-Max 在这个任务中,实质上已经表现出了一定的端到端产品开发能力。

同样是可视化,下面的 Coding 任务从数据工具变成了 3D 户型图。

题目:

代码块

以北京为背景,为我创建一个120平方的3D户型图,要求有3个卧室、1个厨房、2个卫生间、不少于1个阳台,并标注每个房间的面积。

使用HTML、CSS、JS以及Three.JS。只给我一个可以运行并查看这个户型图的HTML文件。

我们要求 Qwen3.7-Max 生成一个北京背景下的 120 平方三居室户型图,并且只能交付一个可运行的 HTML 文件。模型最终生成了 floorplan.html,共 691 行代码,内置 HTML、CSS、JS 和 Three.js 逻辑,双击即可在浏览器中打开,不需要额外工程配置。

打开网易新闻 查看精彩图片

从交付结果可以看到,页面呈现了一个完整的 3D 户型模型。房间布局包含 3 个卧室、1 个厨房、2 个卫生间、南北阳台、客厅/餐厅、走廊、储物间和玄关,基本元素满足题目要求。此外每个区域都有独立颜色区分,并在左侧图例中对应展示房间名称和面积,模型中悬浮标签也同步标注了面积,没有出现房间名称、面积与图例不一致的问题。

打开网易新闻 查看精彩图片

令人惊喜的是,Qwen3.7-Max 没有止步于生成一个静态模型,而是加入了 OrbitControls,支持鼠标拖拽旋转和滚轮缩放。用户可以从俯视图切换到透视视图,也可以围绕户型 360 度查看墙体、房间分布和家具摆放,基本不存在单一视角遮挡信息的问题。

更细节的是,模型还提供了“显示/隐藏屋顶”和“显示/隐藏标注”按钮。隐藏屋顶后,可以直接观察室内空间;打开标注后,房间面积信息会以浮动标签形式固定在对应房间上方。即使在旋转视角后,标签仍能跟随场景显示,避免了 3D 模型常见的“看得见房间、对不上信息”的问题。

打开网易新闻 查看精彩图片

从 Agent 能力看,这道题的复杂程度已经远远超过普通的前端页面。它要求模型同时完成空间布局、三维建模、交互控制、中文标注、视觉风格和单文件封装。而 Qwen3.7-Max 的表现说明,把抽象需求转换成可交互、可验证的 3D 产品原型,也已经进入了它的能力范围。

纵观四组测试,会发现 Qwen3.7-Max 的一个突出特点在于,它并没有把推理和编程当成两件事来做。推理题中,它展示了对约束条件的识别和路径搜索能力;编程题中,这种能力进一步转化成了需求拆解和工程实现。也就是说,推理能力为编程能力提供了“方向感”,编程能力则让推理结果变成了可体验、可运行、可验证的产品形态。

这正是当前大模型竞争中越来越被看重的能力组合。下一阶段的模型不会只拼参数规模或 benchmark 分数,而是复杂任务中稳定性和闭环能力的竞争。尤其在企业场景中,用户并不关心模型是否能讲出漂亮的推理过程,而是关心它能不能把需求做成结果,能不能减少人工反复沟通,能不能在出现边界条件时继续推进。

这也是当前大模型从 Chatbot 走向 Agent 时,最关键的一道分水岭。

04

旗舰模型,走下流水线

当然,这目前仍然只是对未来技术脉络的展望。四道测试题只能说明 Qwen3.7-Max 在典型推理和原型开发任务中表现出了较强能力,并不等于它已经完全具备生产级 Agent 的所有条件。真实业务环境会更加复杂,包括长上下文中的状态保持、多轮修改中的一致性、代码安全、性能优化、依赖冲突、团队工程规范等,都需要更长时间和更严苛场景来验证。

但是同样把 Qwen3.7-Max 放进更宏观的技术脉络,无法忽视的事实在于,这已经是阿里在三个月内发布的第三款旗舰模型。或许比起 Qwen3.7-Max 此刻做到了什么,更值得关注的问题是,阿里凭什么能以如此频率更新旗舰模型,以及这种迭代节奏对于整个大模型行业又意味着什么。

代际突破长期以来都是大模型行业的主流叙事,特别是从 GPT-3 到 GPT-4 的跃迁之后,顶尖模型的每一次更新,都承载了开启下一代模型范式革命的期待。也因此,模型发布呈现出周期长、训练成本高的特征。可以说,这一时期的模型是更接近科研成果的实验室产物。

在这一背景下,千问的月更节奏就显得耐人寻味。三个月内接连问世的 Qwen3.5、3.6、3.7,是否意味着阿里正在将大模型研发从十年磨一剑的科研项目,变成以月为单位迭代的流水线工程?

如果这一转向是真实发生的,其意义就远不止于 BenchMark 上的几分提升。高频迭代靠的不仅是算力,如果没有成熟的基础设施支撑,不可能做到在 30 天更新一个旗舰版本的情况下,仍然保持模型性能的持续提升,并且有大规模的可用 API。这背后必然有一个覆盖数据清洗、训练调度、自动评测、后训练、推理部署等全套工程能力,能够持续训练、微调、上线旗舰模型的工业化生产体系。

这比 Qwen3.7-Max 本身更值得关注。

随着数据处理、强化学习、合成数据和 MoE 架构逐渐成熟,模型能力的提升开始从实验室里的偶发突破,转向连续优化的结果。而当大模型行业进入这一工程时代,更稳定的训练、更快的迭代和更低的成本成为新的竞争焦点,此时高频的版本更新就是最有力的市场信号。

从 Qwen3.5 到 3.7,千问呈现的一种可能是,未来阿里在模型层的竞争力或许并不来自于某一代全球最强模型,而是能以最低的成本、最快的速度,稳定产出一流模型。留给千问的问题是,这种能力是可持续的吗?

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。