四道题评测 Qwen3.7-Max：从空间推理到 3D 建模，它离 Agent 更近了吗？|agent|max|大模型|空间推理|编程

三个月内，三款旗舰。

作者丨吴海明

编辑丨马晓宁梁丙鉴

5 月 20 日，阿里云峰会上，通义千问团队正式发布 Qwen3.7-Max。

这已经是三个月内的第三个旗舰版本了。3 月 20 日 Qwen3.5-Max-Preview 问世，4 月 20 日的 Qwen3.6-Max-Preview，再到这次的 Qwen3.7-Max 正式版，每 30 天一款旗舰模型的迭代速度，放眼全球大模型厂商，几乎无人能出其右。

榜单数据证明了千问最近的火线更新不是灌水之作。在 Artificial Analysis Intelligence Index v4.0 上，Qwen3.7-Max 以 56.6 分位列全球第 5。在它之前的分别是GPT-5.5（60.2）、Claude Opus 4.7（57.3）、Gemini 3.1 Pro Preview（57.2）和 GPT-5.4（56.8）。而值得关注的是，一个月前的 Qwen3.6 Max Preview 在这份测试中的表现还只有 51.8 分。30 天涨 4.8 分，在这个分数段，远远不是靠微调就能做到的事情。

此外根据官方放出的跑分结果，Qwen3.7-Max 在数项权威评测中也位居前列。

▪ 编程智能体：Qwen3.7-Max 在 Terminal Bench 2.0-Terminus 得分 69.7，超过了 DeepSeek-v4-pro-Max、Claude-Opus4.6 等一众顶尖模型；

▪通用智能体：在 MCP-Atlas、MCP-Mark、Skillbench 等现实能力测试中力压 GLM5.1、Kimi-K2.6 等国产模型，较前代提升显著，并且在 Kernel Bench L3上展示了强大的 GPU 内核优化能力；

▪推理能力：在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等推理核心测评中均超越了 Claude-Opus4.6 及所有国产模型，拿下国产模型新 SOTA 的宝座；

▪通用能力与多语言：在指令遵循 IFBench 评测中得分 79.1 分，突破新高，在多语言理解和翻译的WMT24++、MAXIFE评测中领先；

在这份长长的成绩单中，有两个能力维度上的表现格外亮眼。

一是推理。Qwen3.7-Max 在 GPQA Diamond 上拿下了 92.4 的分数，作为对比的是 Claude Opus 4.6 的 91.3。对这两款顶尖模型而言，三分之差已经不是挤牙膏式的性能提升。更亮眼的是，Qwen3.7-Max 在数学推理（Apex Math Reasoning）上领先 Opus 近三成，这是国产模型首次在“硬推理”上跻身全球第一梯队。

二是编程 Agent 能力。在 SWE-bench 系列测试中，Qwen3.7-Max 超过 Claude Opus 4.6-Max 和 Kimi-K2.6，Terminal Bench 2.0 较前代提升 6.9pp，这背后是从写代码，到理解 issue、定位 bug、编写修复 patch，从编程助手到编程智能体的关键跨越。

看懂了这份成绩单，就会明白这届阿里云峰会描绘了如何宏大的一副愿景。还记得峰会上那个 35 小时的 Demo 吗？Qwen3.7-Max 在平头哥真武 M890 芯片，一个训练时从未见过的国产硬件平台上，自主完成了推理内核优化，速度提升 10 倍。

这个 Demo 的战略意义远超技术本身，它指向一个更大的命题。迁移成本为模型公司带来的工程停滞和精度风险，是 CUDA 生态最深的护城河之一。但如果 Qwen3.7-Max 已经摸到了自主针对国产芯片编写优化软件栈的性能阈值，那么前者的生态壁垒便几乎不复存在。

核心成绩单：超强的推理和编程能力

“全球第五、国产第一”的成绩已经足够醒目，这一跃升背后是 Qwen3.7-Max 在推理、数学、代码、Agent 执行几条关键能力线上的同时抬升。换言之，Qwen3.7-Max 今天的排名不是靠着在某个单项上把分数刷高，而是在大模型从 Chatbot 走向 Agent 的核心赛道上，补齐了最难的几块拼图。

之前已经提到，Qwen3.7-Max 是国产模型第一次跻身“硬推理”的前列。

GPQA Diamond 是当前衡量大模型高难科学推理能力的重要基准之一，涵盖物理、化学、生物等研究生级别问题。相比普通知识问答，它更考验模型的多步逻辑推演能力、跨学科知识整合能力、对干扰项的识别能力、在不确定条件下保持推理一致性的能力。

能在这一项目上拿到 92.4 分，意味着 Qwen3.7-Max 不只是依靠中文能力、应用场景或工程调优获得优势，而是在全球最难的一类推理测试中，开始和最强闭源模型正面竞争。

在更难的 Humanity’s Last Exam 上，Qwen3.7-Max 同样没有掉队。

这个榜单考察的是“推理 + 知识”的综合硬度，题目覆盖范围更广、知识颗粒度更细，也更难通过单一能力刷分。图中，Qwen3.7-Max 拿到 38%，位列全球头部阵营，排在它前面的选手包括 Gemini 3.1 Pro、GPT-5.5、GPT-5.4、Gemini 3.5 Flash、Claude Opus 4.7 等少数几款旗舰模型。

这同样可以视为 Qwen3.7-Max 综合能力全面走向成熟的例证。表面的测试单项之下，仍然能划分出诸多原子能力，对于 HLE 而言它们可能是长链推理、跨学科知识、多步分析、隐含条件理解和高噪声问题。HLE 高分成绩的含金量也在于此，诸多原子能力的结合考察，彻底堵死了 RL 刷题、专项优化和模板化 COT 的“刷分三板斧”。

全球旗舰的竞争，在这种维度的测试上才有说服力。

推理能力决定模型能不能“想明白”，编程 Agent 能力则决定模型能不能“把活干完”。在这一点上，Qwen3.7-Max 也没有让人失望。

编程 Agent 的差距，首先体现在 Terminal Bench 2.0-Terminus。这项测试考察的不是“写一个函数”类型的单项任务，而是在终端里完成包括查文件、跑命令、读报错、改代码、再验证的连续操作。Qwen3.7-Max 拿到69.7 分，已经能够说明它和真实开发者工作方式之间更近一步的距离。

而即使在竞争最激烈的 SWE-Verified 上，Qwen3.7-Max 也拿到了 80.4，与 Opus-4.6 Max 的 80.8、DS-V4-Pro Max 的 80.6 几乎持平。前者在 Claude Code 和 Codex 用户圈中有着出名的稳定口碑，后者更是公认的性价比之王。BenchMark 上这样的名次格局，意味着 Qwen3.7-Max 已经在软件工程 Agent 第一梯队中站住了脚跟。

更细分的代码任务里，Qwen3.7-Max 在 SciCode 上拿到 53.5，超过 K2.6 Thinking 和 Opus-4.6 Max。这说明它在科学计算代码、复杂逻辑实现上也具备较强稳定性。

前端和可视化任务同样值得注意。QwenSVG 达到 1608，为该组最高；QwenWebDev 为 1568，处于第一梯队。

这些指标共同拼出了一副完整的 Qwen3.7-Max 能力图景。比起仅仅补全代码，它更加傲人的是开始具备了完整的工程执行能力，这意味着理解需求、定位 bug、修改代码、运行测试、提交 patch，这些过去属于工程师的连续动作，正在被模型逐步接管。

这也解释了，它为什么适合被放进 Claude Code 这样的 Agent CLI 中实测。真正的编程智能体，看的不是单次生成有多漂亮，而是能否在一个真实项目里，把问题一路解决到最后。那么Qwen3.7-Max 水平到底如何，我们为它设计了一些任务。

逻辑推理实测：

玻璃过门与数学公式完形

我们在 Claude Code 环境下接入 Qwen3.7-Max，实测也围绕着推理和 Coding 能力展开。

首先是一个很经典的玻璃过门问题。

题目：

代码块

6米长4.5宽的玻璃能否通过高4米宽3米的门？请给出推理过程

Qwen3.7-Max 的回答如下：

面对这道经典空间推理题，这个问题的陷阱在于，不能简单比较玻璃边长和门的宽高。Qwen3.7-Max 给出的结论是“可以”，并很快抓住关键：门洞对角线为 5 米，玻璃的 4.5 米宽度可以沿门洞对角线方向放置，而 6 米长度则沿门的纵深方向逐步穿过。

更重要的是，它没有停留在“4.5 米小于 5 米”的粗略判断，而是继续做了投影验证。模型将 4.5 米线段居中放在门洞对角线方向上，计算出其水平方向半投影为 1.35 米，小于门宽一半的 1.5 米；竖直方向半投影为 1.8 米，小于门高一半的 2 米。也就是说，这块玻璃在门平面上的截面能够完整落入门框内，且上下左右都有余量。

Qwen3.7-Max 没有被“6 米和 4.5 米都大于门宽高”的直觉误导，把问题转化成三维穿过路径和二维截面约束。它先找到关键几何关系，再做边界验证，最后解释 6 米长度为何不构成限制。对一款推理模型来说，这远比单纯答对更重要。它说明模型具备把现实问题结构化、拆解约束并完成可验证推理的能力。

另外一项测试是数学公式完形，这类题目也被广泛用于考验模型的推理能力。

题目：

代码块

在数字3、7、5之间添加适当的数学符号（不改变数字顺序），使得等式 `3 7 5 = 8` 成立。

Qwen3.7-Max 给出的答案是 3! + 7 - 5 = 8。这个解法的关键在于引入阶乘符号，将 3 转换为 6，再通过简单加减得到结果：6 + 7 - 5 = 8。

重要的是过程，Qwen3.7-Max 并不是直接猜出答案，而是先尝试排除只使用加减乘除的情况。它枚举了 3、7、5 之间两处符号的基础组合，并进一步考虑括号变体，判断纯四则运算无法得到 8。随后，模型才转向更高阶的数学符号，找到阶乘这个突破口。

Qwen3.7-Max 的回答显示，它能够先在常规解空间中验证不可行，再扩展到非常规符号空间。这种思考方式，非常接近人类。而事实上，这类能力对于 Agent 同样重要。当常规路径走不通时，模型能否主动扩大搜索范围，往往决定任务能不能继续推进。

Coding 实测：从数据可视化到 3D 建模

Coding 能力测试的部分，我们选择让 Qwen3.7-Max 完成一项数据分析可视化开发。

题目：

代码块

1 请从零开发一个本地数据可视化网页工具，用户上传 Excel 文件后，自动读取数据并展示表格预览。

2 工具需要自动识别数值列，生成柱状图、折线图和饼图，并支持选择不同字段进行可视化。

3 页面要简洁美观，普通用户打开浏览器即可使用，不依赖后端。

4 请给出完整文件结构、全部代码和运行方法。

5 最后说明这个工具测试了 Agent 的哪些能力。

在这道题中，我们给 Qwen3.7-Max 的任务是从零开发一个本地数据可视化网页工具。要求并不只是写一个页面，而是要完成 Excel 上传、数据解析、表格预览、数值列识别、图表生成、字段切换、无后端运行等一整套功能。Qwen3.7-Max 最终生成了一个四文件项目：index.html、style.css、app.js 和 README.md，并明确给出运行方式，既可以直接双击 index.html，也可以通过python3 -m http.server 8080在本地启动。

从生成结果看，它选择了比较合理的前端技术路线，用 SheetJS 解析 Excel，用 Chart.js 渲染图表，通过 CDN 引入第三方库，避免后端依赖。代码结构也比较完整，index.html 负责页面骨架，style.css 负责响应式布局和视觉样式，app.js 承担文件读取、数据转换、状态管理和图表配置。

很像是专业开发者的一处表现是，模型还补充了 README，以说明功能清单和使用方法，这让整体结果更像一个可交付的小型前端项目，而不是一段孤立的 demo 代码。

打开网页，上传区设计简洁，支持拖拽或点击选择 .xlsx、.xls、.csv 文件。上传 Excel 后，工具可以读取数据并生成预览表格，识别出行数、列数和数值字段；在测试文件中，它展示了 13196 行、11 列数据，并识别出 9 个数值列。页面下方还能根据选择的 X 轴和 Y 轴字段生成可视化图表，支持柱状图、折线图和饼图切换。

这个测试真正考察的是 Agent 的工程闭环能力。Qwen3.7-Max 需要先拆解需求，再完成库选型、文件组织、前端交互、数据处理、图表渲染和运行说明。这些需求让任务更接近真实开发流程，写对代码是最基本的要求，模型还要保证多个文件之间能协同工作，最终让普通用户在浏览器中直接使用。因此 Qwen3.7-Max 在这个任务中，实质上已经表现出了一定的端到端产品开发能力。

同样是可视化，下面的 Coding 任务从数据工具变成了 3D 户型图。

题目：

代码块

以北京为背景，为我创建一个120平方的3D户型图，要求有3个卧室、1个厨房、2个卫生间、不少于1个阳台，并标注每个房间的面积。

使用HTML、CSS、JS以及Three.JS。只给我一个可以运行并查看这个户型图的HTML文件。

我们要求 Qwen3.7-Max 生成一个北京背景下的 120 平方三居室户型图，并且只能交付一个可运行的 HTML 文件。模型最终生成了 floorplan.html，共 691 行代码，内置 HTML、CSS、JS 和 Three.js 逻辑，双击即可在浏览器中打开，不需要额外工程配置。

从交付结果可以看到，页面呈现了一个完整的 3D 户型模型。房间布局包含 3 个卧室、1 个厨房、2 个卫生间、南北阳台、客厅/餐厅、走廊、储物间和玄关，基本元素满足题目要求。此外每个区域都有独立颜色区分，并在左侧图例中对应展示房间名称和面积，模型中悬浮标签也同步标注了面积，没有出现房间名称、面积与图例不一致的问题。

令人惊喜的是，Qwen3.7-Max 没有止步于生成一个静态模型，而是加入了 OrbitControls，支持鼠标拖拽旋转和滚轮缩放。用户可以从俯视图切换到透视视图，也可以围绕户型 360 度查看墙体、房间分布和家具摆放，基本不存在单一视角遮挡信息的问题。

更细节的是，模型还提供了“显示/隐藏屋顶”和“显示/隐藏标注”按钮。隐藏屋顶后，可以直接观察室内空间；打开标注后，房间面积信息会以浮动标签形式固定在对应房间上方。即使在旋转视角后，标签仍能跟随场景显示，避免了 3D 模型常见的“看得见房间、对不上信息”的问题。

从 Agent 能力看，这道题的复杂程度已经远远超过普通的前端页面。它要求模型同时完成空间布局、三维建模、交互控制、中文标注、视觉风格和单文件封装。而 Qwen3.7-Max 的表现说明，把抽象需求转换成可交互、可验证的 3D 产品原型，也已经进入了它的能力范围。

纵观四组测试，会发现 Qwen3.7-Max 的一个突出特点在于，它并没有把推理和编程当成两件事来做。推理题中，它展示了对约束条件的识别和路径搜索能力；编程题中，这种能力进一步转化成了需求拆解和工程实现。也就是说，推理能力为编程能力提供了“方向感”，编程能力则让推理结果变成了可体验、可运行、可验证的产品形态。

这正是当前大模型竞争中越来越被看重的能力组合。下一阶段的模型不会只拼参数规模或 benchmark 分数，而是复杂任务中稳定性和闭环能力的竞争。尤其在企业场景中，用户并不关心模型是否能讲出漂亮的推理过程，而是关心它能不能把需求做成结果，能不能减少人工反复沟通，能不能在出现边界条件时继续推进。

这也是当前大模型从 Chatbot 走向 Agent 时，最关键的一道分水岭。

旗舰模型，走下流水线

当然，这目前仍然只是对未来技术脉络的展望。四道测试题只能说明 Qwen3.7-Max 在典型推理和原型开发任务中表现出了较强能力，并不等于它已经完全具备生产级 Agent 的所有条件。真实业务环境会更加复杂，包括长上下文中的状态保持、多轮修改中的一致性、代码安全、性能优化、依赖冲突、团队工程规范等，都需要更长时间和更严苛场景来验证。

但是同样把 Qwen3.7-Max 放进更宏观的技术脉络，无法忽视的事实在于，这已经是阿里在三个月内发布的第三款旗舰模型。或许比起 Qwen3.7-Max 此刻做到了什么，更值得关注的问题是，阿里凭什么能以如此频率更新旗舰模型，以及这种迭代节奏对于整个大模型行业又意味着什么。

代际突破长期以来都是大模型行业的主流叙事，特别是从 GPT-3 到 GPT-4 的跃迁之后，顶尖模型的每一次更新，都承载了开启下一代模型范式革命的期待。也因此，模型发布呈现出周期长、训练成本高的特征。可以说，这一时期的模型是更接近科研成果的实验室产物。

在这一背景下，千问的月更节奏就显得耐人寻味。三个月内接连问世的 Qwen3.5、3.6、3.7，是否意味着阿里正在将大模型研发从十年磨一剑的科研项目，变成以月为单位迭代的流水线工程？

如果这一转向是真实发生的，其意义就远不止于 BenchMark 上的几分提升。高频迭代靠的不仅是算力，如果没有成熟的基础设施支撑，不可能做到在 30 天更新一个旗舰版本的情况下，仍然保持模型性能的持续提升，并且有大规模的可用 API。这背后必然有一个覆盖数据清洗、训练调度、自动评测、后训练、推理部署等全套工程能力，能够持续训练、微调、上线旗舰模型的工业化生产体系。

这比 Qwen3.7-Max 本身更值得关注。

随着数据处理、强化学习、合成数据和 MoE 架构逐渐成熟，模型能力的提升开始从实验室里的偶发突破，转向连续优化的结果。而当大模型行业进入这一工程时代，更稳定的训练、更快的迭代和更低的成本成为新的竞争焦点，此时高频的版本更新就是最有力的市场信号。

从 Qwen3.5 到 3.7，千问呈现的一种可能是，未来阿里在模型层的竞争力或许并不来自于某一代全球最强模型，而是能以最低的成本、最快的速度，稳定产出一流模型。留给千问的问题是，这种能力是可持续的吗？

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。