本文为 1457 ,建议阅读 5分钟

昨天,阿里巴巴团队重磅推出 Qwen-VL-PlusQwen-VL-Max模型,这两个模型不仅大幅超越此前所有开源 LVLM 模型的最佳水平,并且在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT4-v 的水准。 甚至,Qwen-VL-Max 在中文问答、中文文字理解相关的任务上超越了 OpenAI的 GPT4-v 和 Google 的 Gemini-Pro,而且是开源的,现在你可以在Hugging Face上亲自尝试

所有详细信息:https://github.com/QwenLM/Qwen-VL/blob/master/README_CN.md

值得注意的是:

它主要是一款图像理解模型 它能够对图像进行标注和回应。当输入是一张图像并带有提示“找到红色汽车”时,该模型可以做出相关的标注和回答

打开网易新闻 查看精彩图片

它能够理解图像中各部分的重要性。如果在本地部署的优化模型将在自动驾驶方面将会发挥关键作用,看下面的例子:

用户:目前车速为150公里/小时。根据图片,应该如何操作车辆? A. 加速 B. 减速 C. 保持原速 D. 停车 请做出选择并附上理由。

打开网易新闻 查看精彩图片

Qwen:B. 减速

根据图片中的交通标志,当前车道的最高限速是100公里/小时。由于当前车速为150公里/小时,超过了限速,因此应该减速以符合交通规定。

它能够理解流程图、图表、表格和图形,并且可以进行推理。它可以解决小学数学问题(不要看不起小学数学哈哈,这对模型数学推理很重要)。

用户:阅读图像并逐步解决。- 此提示足以让 Qwen 根据问题求出两个物体的表面积和体积

打开网易新闻 查看精彩图片

理解并能解释流程图

用户:解释这张图:

打开网易新闻 查看精彩图片

Qwen:这张图呈现了Qwen-VL系列的三阶段训练流程,这是一种视觉语言模型。每个阶段都用标有“QwenLM”的方框表示,并伴随一个小方框,说明该阶段使用的数据类型。

在第一阶段,模型通过图文对进行预训练。这一阶段涉及从大量图像及其相应的文本描述中学习,以理解视觉和语言信息之间的关系。

第二阶段是多任务预训练,使用多任务和交叉的VL数据。在这里,模型同时在多个任务上进行训练,例如图像字幕生成、视觉问题回答和指代表达理解。采用交叉数据的方式有助于模型高效地学会在不同任务之间切换。

最后,在第三阶段,模型通过带有交叉对话的VL数据进行监督微调。这个阶段涉及使用标记数据来改进模型在特定任务上的性能。交叉对话数据为模型提供更富有对话性的语境,增强了其理解和回应自然语言查询的能力。

总体而言,这个三阶段的训练流程旨在培养一个强大的视觉语言模型,能够理解并以人类般的方式生成对视觉和语言输入的回应。

它具备理解、解析和转换图表数据的能力。按照这个速度2025年麦肯锡分析师恐怕要失业,看下面的例子

打开网易新闻 查看精彩图片

它能够从图表中进行推理。下面的例子类似于瑞文标准逐步矩阵,这是一种广泛使用的智力测试。

用户:观察这个由三个形状组成的序列。第四个形状应该是什么?请详细描述前三个形状,并解释你的推理过程。

打开网易新闻 查看精彩图片

Qwen-VL

形状的序列是一个三角形,正方形和五边形,然后是一个问号。这个模式表明,序列中的下一个形状应该是一个六边形。该模式似乎基于每个形状的边数,每个后续形状的边数比前一个多一个。

因此,第四个形状应该有六个边,使其成为一个六边形。

它在从图像中提取结构化数据方面表现得非常出色。下面的例子中的结果是过去几年中许多初创AI公司努力开发的成果

打开网易新闻 查看精彩图片

总体而言,Qwen将成为许多企业任务的极为实用的模型,甚至在某些方面已经超越了GPT-4V。虽然其语言能力尚未达到GPT-4的水平,但在智能推理方面却已经取得了相当进展,必须要说一句Qwen是中国也是世界的,给阿里团队点赞!!!

打开网易新闻 查看精彩图片

有网友做了Qwen-VL in ComfyUI,将阿里 QWen-VL 双模型(Plus & Max)通过 API 调用引入到 ComfyUI 中,初测下来 QWen-VL 是目前开源世界最好的视觉模型

项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API

赶紧体验吧