阿里千问杀进全球前五国产多模态大模型要改写格局？

侃故事的阿庆

2026-06-03 09:19 ·福建

6月2日阿里发布千问3.7-Plus多模态大模型，在全球视觉大模型榜单Vision Arena拿下全球前五、中国第一的成绩。绝大多数人都在讨论榜单排名，可我注意到一个很少被提及的细节：这是第一个把“看想写做验”完整闭环的国产多模态智能体。

大模型的竞争，已经从比参数拼跑分，转向了能不能真的干活。当智能体能自己看完图片写完代码跑通测试，整个行业的游戏规则会发生什么变化？

Vision Arena榜单截图 · 显示阿里Qwen3.7-Plus位列全球第五、中国第一

跑分之外，大模型正在完成角色转换

这半年来，国内大模型发布会一场接一场，大家的关注点始终绕不开“参数规模”“跑分排名”这些纸面数据。但千问3.7-Plus这次的发布，跳出了这个惯性赛道。

它的核心卖点不是又堆了多少参数，而是第一次在消费级模型层面，把多模态输入、深度推理、自主编程、工具调用、结果验证完整整合进了一个工作流。换句话说，以前的大模型是“你问我答”，现在它能自己从头到尾完成一件事。

比如给它一张现成的股票APP界面截图，它能看懂每个控件的位置、功能，自己生成完整的代码，调用工具获取测试数据，还能自己完成10项核心测试，一比一复刻出一模一样的应用。整个过程不需要人类中途干预。

多维度评测得分柱状图 · 展示Qwen3.7-Plus与其他模型的评测对比数据

这种变化的本质，不是性能加了几分，而是大模型从“聊天工具”变成了“干活助手”。

大模型产业的下一个竞争拐点，不是谁的参数多，而是谁能真的替人完成复杂长程任务。

从数据上看，这次千问3.7-Plus的提升也完全符合这个方向：评估通用Agent能力的Skillbench评测中，相比上一代模型分数提升了10.2分；数学推理Apex评测中，性能达到了上代模型的近3倍；纯视觉推理BabyVision评测中，得分从37.4涨到了64.7，直接超过了Gemini3.1-Pro。

这些数据不是给行业看的噱头，是实打实支撑“自主完成任务”的基础。

视觉能力升级，藏着智能体落地的关键密码

很多人会问，为什么多模态智能体一定要先升级视觉能力？答案其实很简单：真实世界绝大部分信息，都是通过视觉输入的。

要让AI去复刻一个APP，它得先看懂界面上每个按钮是什么；要让AI去分析工厂的机械图纸，它得先看懂图上的线条和标注；要让AI帮你做一张参考设计图的网页，它得先看懂参考图的布局和配色。

看不懂视觉信息的智能体，永远只能待在文本聊天的盒子里，碰不到真实世界的任务。

千问3.7-Plus这次给视觉能力做了系统性升级，不止是能识别图片里的物体，更关键的是增强了视觉推理能力。接入搜索增强之后，哪怕是一张工厂里模糊的专业机械图，它都能把设备的功能、参数剖析得准确清晰。

APP复刻对比图 · 左侧原APP与右侧Qwen3.7-Plus复刻APP界面

集成CI代码解释器之后，它能自己找不同、解华容道、走迷宫，这些看似小游戏的任务，其实都是在训练视觉推理+工具调用的闭环能力。

更值得注意的是，它还增强了视频和驾驶场景的理解能力，能理清视频里事件的时序关系，看懂真实驾驶场景里交通参与者的空间关系。这其实是在给自动驾驶、具身智能这些未来应用铺路。

平台化落地，国产大模型开始拼生态卡位

这次发布还有一个容易被忽略的信息：Qwen3.7-Plus发布当天就上线了阿里云百炼，对外直接提供API服务。而且阿里云百炼还兼容OpenAI的接口规范，开发者只需要改三行配置，就能把原来基于OpenAI的代码直接迁移过来。

这不是一个简单的上线动作，背后是国产大模型不一样的落地逻辑。

以前很多大模型发布，更像是“技术秀”，发布之后要等几个月才能真正用得上，普通开发者根本碰不到。但现在不一样了，模型发布即上线，开发者当天就能调用API开发自己的应用。

对普通开发者来说，不用再等排期，直接就能用上最新的多模态智能体能力
对已经用了OpenAI接口的开发者来说，迁移成本几乎为零，切换门槛极低
对企业来说，能直接在阿里云的生态里完成从模型调用到应用构建的全流程

这种动作的本质，是在抢生态卡位。当大模型的技术差距逐渐缩小，能率先把能力开放给开发者，让开发者快速做出应用，就能率先建立起自己的生态飞轮。

技术是1，生态是后面的0，没有开放的平台，再好的技术也只是实验室里的样品。

千问这两年的迭代节奏其实很有意思：从Qwen3.5到Qwen3.6再到现在的Qwen3.7，每一次升级都不是只堆参数，而是一边提升核心能力，一边完善开放平台的能力。现在看来，这个节奏正在开始兑现成果。

国产大模型的突围，走了一条不一样的路

回头看这两年国产大模型的发展，其实走了一条和海外不完全一样的路径。海外巨头早年先拼参数规模，后来才慢慢转向智能体和多模态落地。而国产大模型从一开始就盯着“落地”“干活”这些实际需求。

千问这次冲进全球视觉大模型前五，其实只是一个结果。真正值得关注的是，它把多模态混合智能体的完整闭环，从实验室搬到了开发者面前，让所有人都能用。

以前我们总说，国产大模型跟海外顶尖模型还有差距。但这个差距正在快速缩小，而且我们的缩小方式，不是跟着别人屁股后面堆参数，而是针对实际落地需求，走出了自己的升级路线。

当越来越多国产大模型能真的帮开发者和企业解决实际问题，整个产业的主动权，就会慢慢回到我们自己手里。

现在千问已经把多模态智能体的门槛拉到了人人可用的程度，接下来就看开发者们能基于这个能力，长出什么样意想不到的应用了。你觉得第一个被多模态智能体改变的行业会是哪一个？

#AI妙生图##与ChatGPT的有趣对话##千问#

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴