阿里巴巴推出最强开源视觉大模型Qwen-VL：实用性前所未有,推理超越GPT4- V

AI寒武纪

2024-01-31 06:22 ·江苏

本文为 1457字，建议阅读 5分钟

昨天，阿里巴巴团队重磅推出 Qwen-VL-Plus和 Qwen-VL-Max模型，这两个模型不仅大幅超越此前所有开源 LVLM 模型的最佳水平，并且在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT4-v 的水准。甚至，Qwen-VL-Max 在中文问答、中文文字理解相关的任务上超越了 OpenAI的 GPT4-v 和 Google 的 Gemini-Pro，而且是开源的，现在你可以在Hugging Face上亲自尝试

所有详细信息：https://github.com/QwenLM/Qwen-VL/blob/master/README_CN.md

值得注意的是：

它主要是一款图像理解模型它能够对图像进行标注和回应。当输入是一张图像并带有提示“找到红色汽车”时，该模型可以做出相关的标注和回答

它能够理解图像中各部分的重要性。如果在本地部署的优化模型将在自动驾驶方面将会发挥关键作用，看下面的例子：

用户：目前车速为150公里/小时。根据图片，应该如何操作车辆？ A. 加速 B. 减速 C. 保持原速 D. 停车请做出选择并附上理由。

Qwen：B. 减速

根据图片中的交通标志，当前车道的最高限速是100公里/小时。由于当前车速为150公里/小时，超过了限速，因此应该减速以符合交通规定。

它能够理解流程图、图表、表格和图形，并且可以进行推理。它可以解决小学数学问题（不要看不起小学数学哈哈，这对模型数学推理很重要）。

用户：阅读图像并逐步解决。- 此提示足以让 Qwen 根据问题求出两个物体的表面积和体积

理解并能解释流程图

用户：解释这张图：

Qwen：这张图呈现了Qwen-VL系列的三阶段训练流程，这是一种视觉语言模型。每个阶段都用标有“QwenLM”的方框表示，并伴随一个小方框，说明该阶段使用的数据类型。

在第一阶段，模型通过图文对进行预训练。这一阶段涉及从大量图像及其相应的文本描述中学习，以理解视觉和语言信息之间的关系。

第二阶段是多任务预训练，使用多任务和交叉的VL数据。在这里，模型同时在多个任务上进行训练，例如图像字幕生成、视觉问题回答和指代表达理解。采用交叉数据的方式有助于模型高效地学会在不同任务之间切换。

最后，在第三阶段，模型通过带有交叉对话的VL数据进行监督微调。这个阶段涉及使用标记数据来改进模型在特定任务上的性能。交叉对话数据为模型提供更富有对话性的语境，增强了其理解和回应自然语言查询的能力。

总体而言，这个三阶段的训练流程旨在培养一个强大的视觉语言模型，能够理解并以人类般的方式生成对视觉和语言输入的回应。

它具备理解、解析和转换图表数据的能力。按照这个速度2025年麦肯锡分析师恐怕要失业，看下面的例子

它能够从图表中进行推理。下面的例子类似于瑞文标准逐步矩阵，这是一种广泛使用的智力测试。

用户：观察这个由三个形状组成的序列。第四个形状应该是什么？请详细描述前三个形状，并解释你的推理过程。

Qwen-VL

形状的序列是一个三角形，正方形和五边形，然后是一个问号。这个模式表明，序列中的下一个形状应该是一个六边形。该模式似乎基于每个形状的边数，每个后续形状的边数比前一个多一个。

因此，第四个形状应该有六个边，使其成为一个六边形。

它在从图像中提取结构化数据方面表现得非常出色。下面的例子中的结果是过去几年中许多初创AI公司努力开发的成果

总体而言，Qwen将成为许多企业任务的极为实用的模型，甚至在某些方面已经超越了GPT-4V。虽然其语言能力尚未达到GPT-4的水平，但在智能推理方面却已经取得了相当进展，必须要说一句Qwen是中国也是世界的，给阿里团队点赞！！！

有网友做了Qwen-VL in ComfyUI，将阿里 QWen-VL 双模型（Plus & Max）通过 API 调用引入到 ComfyUI 中，初测下来 QWen-VL 是目前开源世界最好的视觉模型

项目地址：https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API

赶紧体验吧

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴