导读:5月19日,阿里巴巴通义实验室悄然上线Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview两款预览模型,引发AI圈热议。这是继4月Qwen3.6系列发布后的又一次关键迭代,新模型在推理能力、多模态理解和编程智能体等方面实现全面升级,并将于5月20日阿里云峰会上正式发布。
一、发布背景:从Qwen3.6到Qwen3.7的快速迭代

2026年,大模型赛道竞争进入白热化阶段。阿里巴巴通义千问团队保持着高频迭代节奏:

  • 2026年2月:发布Qwen3.5系列,基于视觉与文本混合Token预训练,在MMLU-Pro、GPQA等基准测试中超越GPT-5.2和Claude 4.5

  • 2026年4月20日:推出Qwen3.6-Max-Preview,在SWE-bench Pro、Terminal-Bench 2.0等六项编程基准上取得最高分,被誉为"编程智能体新标杆"

  • 2026年5月19日:Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview预览版上线,面向公众开放试用

此次Qwen3.7系列的发布,距离Qwen3.6仅隔一个月,展现了阿里在大模型领域的研发加速度。

二、模型规格与核心特性 1. 双模型策略:Max与Plus定位分明

特性

Qwen3.7-Max-Preview

Qwen3.7-Plus-Preview

定位

旗舰推理模型

高性能多模态模型

当前模式

仅支持思考模式

仅支持思考模式

文本排名

Arena AI文本综合榜第13位

视觉排名

Arena AI视觉综合榜第16位

搜索/代码解释器

暂不可用

暂不可用

上线平台

Qwen Chat、Arena AI

Qwen Chat、Arena AI

2. 技术架构延续与升级

Qwen3.7系列延续了Qwen3.6的万亿参数稀疏混合专家(MoE)架构,总参数量超过1万亿,预训练数据量达36万亿tokens。这种"稀疏激活"机制在保证强大性能的同时,有效控制了推理成本。

关键升级点

  • 推理能力强化:Qwen3.7-Max-Preview在数学领域排名Arena AI第7位,专家级应用第9位,编程第10位

  • 多模态突破:Qwen3.7-Plus-Preview视觉能力显著提升,助力通义千问在视觉榜升至所有实验室第5名

  • 上下文窗口:预计延续256K-1M tokens的超长上下文支持(具体规格待官方正式发布确认)

三、基准测试表现:细分领域进入全球前10

根据Arena AI(原LMArena)的实时评测数据:

Qwen3.7-Max-Preview 文本能力

  • 综合排名:第13位(阿里通义千问在文本类实验室中排名第6)

  • 数学:第7位

  • 专家级应用:第9位

  • 软件与IT:第9位

  • 编程:第10位

  • 专家竞技场(仅专家级提示):第9位

Qwen3.7-Plus-Preview 视觉能力
  • 视觉综合排名:第16位

  • 实验室排名:助力通义千问视觉榜升至第5名

对比参考:前代Qwen3.6-Max-Preview在SWE-bench Pro(57.30分,第7/36名)、Terminal Bench 2.0(65.40分,第9/43名)等编程基准上表现优异。Qwen3.7在此基础上进一步提升了数学推理和专家级任务处理能力。
四、与前代模型对比:Qwen3.7 vs Qwen3.6

对比维度

Qwen3.6-Max-Preview

Qwen3.7-Max-Preview

发布时间

2026年4月20日

2026年5月19日(预览)

编程基准

6项最高分(SWE-bench Pro等)

编程第10位,数学第7位

视觉能力

主要聚焦文本

Plus版视觉榜第16位

思考模式

支持思考/非思考双模式

目前仅开放思考模式

工具调用

支持Function Calling

搜索/代码解释器暂不可用

定价输 入 ,

6.24/1M输出

预览期间免费

关键变化

  1. **从"编程专项冠军"到"全能型选手"**:Qwen3.6在编程领域一骑绝尘,Qwen3.7则在数学、专家级应用等更广泛的领域进入全球前10

  2. 多模态能力补齐:Plus版本专门强化视觉理解,弥补此前通义千问在视觉榜的短板

  3. 思考模式优先:目前仅开放思考模式,显示阿里对模型推理能力的信心

五、使用方式与生态布局 1. 立即体验
  • Qwen Chat:https://chat.qwen.ai/

  • Arena AI(原LMArena):参与盲测投票

  • 阿里云百炼:预计正式发布后将上线API服务

2. 开发者注意事项
  • 当前为预览版,模型仍在迭代优化中

  • 提示词数据可能被用于模型改进,建议避免输入敏感信息

  • 暂未开放搜索和代码解释器功能,完整功能需等待5月20日正式发布

3. 定价策略预测

参考Qwen3.6-Max-Preview的定价( 输 入 , 6.24/1M输出tokens),Qwen3.7系列预计延续"高性能+性价比"路线,相比GPT-5.5( 输 入 ) 和 ( 3/1M输入)具有显著价格优势。

六、行业意义与竞争格局 1. 国产大模型的"加速度"

从Qwen3.5(2月)→ Qwen3.6(4月)→ Qwen3.7(5月),阿里实现了平均每月一次重大迭代。这种研发节奏在全球大模型厂商中处于领先地位,标志着中国AI技术从"跟跑"向"并跑"甚至"领跑"转变。

2. 与竞品对比

模型

文本排名

视觉排名

核心优势

Qwen3.7-Max

第13位

数学推理、性价比

Qwen3.7-Plus

第16位

多模态理解

GPT-5.5

领先

领先

综合性能最强

Claude 3.7 Sonnet

领先

编程工作流

GLM-5.1

领先

长程自主任务

3. 应用场景展望

  • 科研与学术:数学第7位的成绩使其成为科研人员的有力助手

  • 企业级开发:编程和软件IT领域前10,适合复杂代码分析

  • 多模态应用:Plus版本的视觉能力可支撑文档理解、图像分析等场景

  • 智能体构建:延续Qwen3.6的Agent优势,支持复杂多轮任务

七、写在最后

Qwen3.7 Preview的发布,不仅是通义千问系列的技术升级,更是国产大模型在全球AI竞赛中持续发力的缩影。从万亿参数MoE架构到Arena AI全球前10的基准成绩,阿里正在用"高频迭代+硬核性能"证明中国AI的创新实力。

5月20日阿里云峰会,Qwen3.7系列将正式发布,届时我们将看到完整的技术规格、基准测试和商用定价。对于开发者和企业用户而言,一个更强大、更可靠、更具性价比的国产大模型选择即将到来。