6月2日,阿里千问大模型团队正式推出Qwen3.7-Plus。它不是一次简单的版本迭代,而是Qwen3.7的多模态升级版,核心定位明确——打造视觉与语言统一的智能体基座。
与此前版本相比,Qwen3.7-Plus在保留文本处理、编码能力、工具调用和生产力工作流的基础上,重点强化了三项能力:视觉理解、视觉推理,以及跨模态任务处理。简单说,它不仅能看懂图片和视频,还能基于视觉信息进行逻辑推理,并完成实际操作任务。
打开网易新闻 查看精彩图片
目前这款模型已通过阿里云百炼平台提供服务,用户也可以在Qwen Studio直接体验。它支持的输入形式相当丰富,包括图像、视频、屏幕截图、网页内容和文本。这意味着它面向的是更复杂的软件操作和办公流程场景——无论是在图形用户界面、命令行界面,还是在各类工具环境中,都能承担任务执行的角色。
评测成绩给出了更直观的参考。在多模态竞技场Vision Arena的排名中,Qwen3.7-Plus帮助阿里跻身全球前五,同时位居中国第一。具体到各项测试,它在BabyVision、MathVision、ScreenSpot Pro、OSWorld-Verified、AndroidWorld等多个基准上均有明显提升,尤其在视觉推理、工具调用和任务执行链路上表现突出。
纯文本能力方面同样值得关注。官方数据显示,Qwen3.7-Plus已经接近Max级别模型的水准,在编码智能体、通用智能体、推理能力、指令遵循和多语言任务上保持了强势表现。这意味着无论用户面对的是纯文本对话,还是需要结合视觉信息的复杂任务,这款模型都能提供连贯的支持。
热门跟贴