6月2日阿里发布千问3.7-Plus多模态大模型,在全球视觉大模型榜单Vision Arena拿下全球前五、中国第一的成绩。绝大多数人都在讨论榜单排名,可我注意到一个很少被提及的细节:这是第一个把“看想写做验”完整闭环的国产多模态智能体。
大模型的竞争,已经从比参数拼跑分,转向了能不能真的干活。当智能体能自己看完图片写完代码跑通测试,整个行业的游戏规则会发生什么变化?
Vision Arena榜单截图 · 显示阿里Qwen3.7-Plus位列全球第五、中国第一
跑分之外,大模型正在完成角色转换
这半年来,国内大模型发布会一场接一场,大家的关注点始终绕不开“参数规模”“跑分排名”这些纸面数据。但千问3.7-Plus这次的发布,跳出了这个惯性赛道。
它的核心卖点不是又堆了多少参数,而是第一次在消费级模型层面,把多模态输入、深度推理、自主编程、工具调用、结果验证完整整合进了一个工作流。换句话说,以前的大模型是“你问我答”,现在它能自己从头到尾完成一件事。
比如给它一张现成的股票APP界面截图,它能看懂每个控件的位置、功能,自己生成完整的代码,调用工具获取测试数据,还能自己完成10项核心测试,一比一复刻出一模一样的应用。整个过程不需要人类中途干预。
多维度评测得分柱状图 · 展示Qwen3.7-Plus与其他模型的评测对比数据
这种变化的本质,不是性能加了几分,而是大模型从“聊天工具”变成了“干活助手”。
大模型产业的下一个竞争拐点,不是谁的参数多,而是谁能真的替人完成复杂长程任务。
从数据上看,这次千问3.7-Plus的提升也完全符合这个方向:评估通用Agent能力的Skillbench评测中,相比上一代模型分数提升了10.2分;数学推理Apex评测中,性能达到了上代模型的近3倍;纯视觉推理BabyVision评测中,得分从37.4涨到了64.7,直接超过了Gemini3.1-Pro。
这些数据不是给行业看的噱头,是实打实支撑“自主完成任务”的基础。
视觉能力升级,藏着智能体落地的关键密码
很多人会问,为什么多模态智能体一定要先升级视觉能力?答案其实很简单:真实世界绝大部分信息,都是通过视觉输入的。
要让AI去复刻一个APP,它得先看懂界面上每个按钮是什么;要让AI去分析工厂的机械图纸,它得先看懂图上的线条和标注;要让AI帮你做一张参考设计图的网页,它得先看懂参考图的布局和配色。
看不懂视觉信息的智能体,永远只能待在文本聊天的盒子里,碰不到真实世界的任务。
千问3.7-Plus这次给视觉能力做了系统性升级,不止是能识别图片里的物体,更关键的是增强了视觉推理能力。接入搜索增强之后,哪怕是一张工厂里模糊的专业机械图,它都能把设备的功能、参数剖析得准确清晰。
APP复刻对比图 · 左侧原APP与右侧Qwen3.7-Plus复刻APP界面
集成CI代码解释器之后,它能自己找不同、解华容道、走迷宫,这些看似小游戏的任务,其实都是在训练视觉推理+工具调用的闭环能力。
更值得注意的是,它还增强了视频和驾驶场景的理解能力,能理清视频里事件的时序关系,看懂真实驾驶场景里交通参与者的空间关系。这其实是在给自动驾驶、具身智能这些未来应用铺路。
平台化落地,国产大模型开始拼生态卡位
这次发布还有一个容易被忽略的信息:Qwen3.7-Plus发布当天就上线了阿里云百炼,对外直接提供API服务。而且阿里云百炼还兼容OpenAI的接口规范,开发者只需要改三行配置,就能把原来基于OpenAI的代码直接迁移过来。
这不是一个简单的上线动作,背后是国产大模型不一样的落地逻辑。
以前很多大模型发布,更像是“技术秀”,发布之后要等几个月才能真正用得上,普通开发者根本碰不到。但现在不一样了,模型发布即上线,开发者当天就能调用API开发自己的应用。
- 对普通开发者来说,不用再等排期,直接就能用上最新的多模态智能体能力
- 对已经用了OpenAI接口的开发者来说,迁移成本几乎为零,切换门槛极低
- 对企业来说,能直接在阿里云的生态里完成从模型调用到应用构建的全流程
这种动作的本质,是在抢生态卡位。当大模型的技术差距逐渐缩小,能率先把能力开放给开发者,让开发者快速做出应用,就能率先建立起自己的生态飞轮。
技术是1,生态是后面的0,没有开放的平台,再好的技术也只是实验室里的样品。
千问这两年的迭代节奏其实很有意思:从Qwen3.5到Qwen3.6再到现在的Qwen3.7,每一次升级都不是只堆参数,而是一边提升核心能力,一边完善开放平台的能力。现在看来,这个节奏正在开始兑现成果。
国产大模型的突围,走了一条不一样的路
回头看这两年国产大模型的发展,其实走了一条和海外不完全一样的路径。海外巨头早年先拼参数规模,后来才慢慢转向智能体和多模态落地。而国产大模型从一开始就盯着“落地”“干活”这些实际需求。
千问这次冲进全球视觉大模型前五,其实只是一个结果。真正值得关注的是,它把多模态混合智能体的完整闭环,从实验室搬到了开发者面前,让所有人都能用。
以前我们总说,国产大模型跟海外顶尖模型还有差距。但这个差距正在快速缩小,而且我们的缩小方式,不是跟着别人屁股后面堆参数,而是针对实际落地需求,走出了自己的升级路线。
当越来越多国产大模型能真的帮开发者和企业解决实际问题,整个产业的主动权,就会慢慢回到我们自己手里。
现在千问已经把多模态智能体的门槛拉到了人人可用的程度,接下来就看开发者们能基于这个能力,长出什么样意想不到的应用了。你觉得第一个被多模态智能体改变的行业会是哪一个?
#AI妙生图##与ChatGPT的有趣对话##千问#
热门跟贴