看图说话+作画二合一！开源方法VARGPT踏步而来|vargpt|作画|开源方法|模态|视觉

近日北大一研究团队提出了VARGPT，这是一种新颖的多模态大型语言模型（MLLM），它在单一的自回归框架内统一了视觉理解和生成。VARGPT采用下一个标记预测范式进行视觉理解，以及下一个尺度预测范式进行视觉自回归生成。VARGPT创新性地扩展了LLaVA架构，在MLLMs中实现了高效的尺度自回归视觉生成，同时在一个模型框架内无缝适应混合模态的输入和输出。（链接在文章底部）

尽管VARGPT基于LLAVA架构进行多模态理解，但在各种以视觉为中心的基准测试中，如视觉问答和推理任务，VARGPT显著优于LLaVA-1.5。同时，VARGPT自然支持自回归视觉生成和指令到图像合成的能力，展示了其在视觉理解和生成任务中的多功能性。

01 技术原理

VARGPT框架包括：（1）用于视觉理解的大型语言模型、视觉编码器和理解投影器；（2）用于视觉生成的视觉解码器和双重生成投影器。VARGPT在LLM骨干网络中采用因果注意力机制，同时在视觉解码器中利用块因果注意力机制。

VARGPT在特别设计的数据集上经历了三阶段的统一训练过程，包括预训练阶段和两个混合视觉指令调优阶段。统一训练策略旨在实现视觉和文本特征的对齐，增强理解和生成的指令跟随能力，并分别提高视觉生成质量。

VARGPT构建和收集的数据分布，包括：（a）三个阶段训练数据的比例分布；以及（b）第二阶段指令微调阶段使用的混合指令数据分布。用于第二阶段训练的复合数据集来自LLaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。

02 演示效果与对比

对多种多模态大语言模型（MLLMs）在多个视觉理解和生成基准测试中的表现进行了比较分析。其中，CLIP分数被用作文本到图像视觉生成的评估指标，而其余指标则来自标准的视觉问答基准测试和多模态理解基准测试。

VARGPT模型在所有理解基准测试中均显著优于对比基线模型。此外，它在指令到图像生成任务中表现出色，从而增强了其在各种视觉-语言任务中的多功能性和适用性。

VARGPT支持用户输入文本和图像指令，并同时输出文本和图像混合模态数据。VARGPT在理解方面效果优于LLaVa-v1.5-7B。

https://arxiv.org/pdf/2501.12327
https://github.com/VARGPT-family/VARGPT

欢迎交流～，带你学习AI，了解AI

看图说话+作画二合一！开源方法VARGPT踏步而来

热搜

热门跟贴

热搜

热门跟贴

相关推荐

你的眼睛有时也许会欺骗你

风格大胆抢眼，红丝装扮颇具视觉张力

视觉决定你的认知，野心决定的高度

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

“最严禁令”下，泰山石照卖不误：有人借河道工程盗采囤石上千吨，快递面单写成“日用品”

揭秘演员巴掌脸背后的视觉谜团

神经科学震撼真相 你从未看见过真实世界 感觉与知觉的奥秘

声音里藏着信息，我们却只会嗡嗡响

港中文团队发布7模态人体动作数据集，揭开大模型理解能力短板

拉丁天后AMA舞台藏彩蛋，粉丝扒出新歌线索

这款恐怖游戏把"花"做成了敌人，固定视角能救复古玩法吗？

司机称行车记录仪时速不到60km/h，监控抓拍达121km/h 交警：设备无问题 律师释法

英媒：打不过就加入 中企正接管衰败的欧洲汽车工厂

美国副总统万斯或放弃2028年的美国总统竞选，接近特朗普的消息人士：“万斯在白宫中毫无存在感，鲁比奥比他更有魔力”

广州官宣：试点收购300万元以内、70㎡以下二手住宅，楼龄不限

台股总市值升至全球第五

集中爆发！宁波多地惊现罕见景观！有人半夜11点刷到立马起床出发，连夜奔赴

“感谢学校让拾荒老人进校”，毕业生论文致谢引关注！

景德镇陶瓷匠人功底深厚，落笔行云流水，作画姿态沉稳

每瓶仅含0.01克，喝几千瓶才抵一个桃！“饮料一哥”也翻车了？杭州多家超市在售，你可能也喝过

神经科学震撼真相你从未看见过真实世界感觉与知觉的奥秘

司机称行车记录仪时速不到60km/h，监控抓拍达121km/h 交警：设备无问题律师释法

英媒：打不过就加入中企正接管衰败的欧洲汽车工厂