阿里千问发布多模态混合智能体，视觉推理能力大增

硬核玩家2哈

2026-06-02 07:07 ·北京

6月2日，阿里千问大模型团队正式推出Qwen3.7-Plus。它不是一次简单的版本迭代，而是Qwen3.7的多模态升级版，核心定位明确——打造视觉与语言统一的智能体基座。

与此前版本相比，Qwen3.7-Plus在保留文本处理、编码能力、工具调用和生产力工作流的基础上，重点强化了三项能力：视觉理解、视觉推理，以及跨模态任务处理。简单说，它不仅能看懂图片和视频，还能基于视觉信息进行逻辑推理，并完成实际操作任务。

目前这款模型已通过阿里云百炼平台提供服务，用户也可以在Qwen Studio直接体验。它支持的输入形式相当丰富，包括图像、视频、屏幕截图、网页内容和文本。这意味着它面向的是更复杂的软件操作和办公流程场景——无论是在图形用户界面、命令行界面，还是在各类工具环境中，都能承担任务执行的角色。

评测成绩给出了更直观的参考。在多模态竞技场Vision Arena的排名中，Qwen3.7-Plus帮助阿里跻身全球前五，同时位居中国第一。具体到各项测试，它在BabyVision、MathVision、ScreenSpot Pro、OSWorld-Verified、AndroidWorld等多个基准上均有明显提升，尤其在视觉推理、工具调用和任务执行链路上表现突出。

纯文本能力方面同样值得关注。官方数据显示，Qwen3.7-Plus已经接近Max级别模型的水准，在编码智能体、通用智能体、推理能力、指令遵循和多语言任务上保持了强势表现。这意味着无论用户面对的是纯文本对话，还是需要结合视觉信息的复杂任务，这款模型都能提供连贯的支持。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴