近日北大一研究团队提出了VARGPT,这是一种新颖的多模态大型语言模型(MLLM),它在单一的自回归框架内统一了视觉理解和生成。VARGPT采用下一个标记预测范式进行视觉理解,以及下一个尺度预测范式进行视觉自回归生成。VARGPT创新性地扩展了LLaVA架构,在MLLMs中实现了高效的尺度自回归视觉生成,同时在一个模型框架内无缝适应混合模态的输入和输出。(链接在文章底部)

尽管VARGPT基于LLAVA架构进行多模态理解,但在各种以视觉为中心的基准测试中,如视觉问答和推理任务,VARGPT显著优于LLaVA-1.5。同时,VARGPT自然支持自回归视觉生成和指令到图像合成的能力,展示了其在视觉理解和生成任务中的多功能性。

01 技术原理

VARGPT框架包括:(1)用于视觉理解的大型语言模型、视觉编码器和理解投影器;(2)用于视觉生成的视觉解码器和双重生成投影器。VARGPT在LLM骨干网络中采用因果注意力机制,同时在视觉解码器中利用块因果注意力机制。

VARGPT在特别设计的数据集上经历了三阶段的统一训练过程,包括预训练阶段和两个混合视觉指令调优阶段。统一训练策略旨在实现视觉和文本特征的对齐,增强理解和生成的指令跟随能力,并分别提高视觉生成质量。

VARGPT构建和收集的数据分布,包括:(a)三个阶段训练数据的比例分布;以及(b)第二阶段指令微调阶段使用的混合指令数据分布。用于第二阶段训练的复合数据集来自LLaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。

02 演示效果与对比

对多种多模态大语言模型(MLLMs)在多个视觉理解和生成基准测试中的表现进行了比较分析。其中,CLIP分数被用作文本到图像视觉生成的评估指标,而其余指标则来自标准的视觉问答基准测试和多模态理解基准测试。

VARGPT模型在所有理解基准测试中均显著优于对比基线模型。此外,它在指令到图像生成任务中表现出色,从而增强了其在各种视觉-语言任务中的多功能性和适用性。

VARGPT支持用户输入文本和图像指令,并同时输出文本和图像混合模态数据。VARGPT在理解方面效果优于LLaVa-v1.5-7B。

https://arxiv.org/pdf/2501.12327
https://github.com/VARGPT-family/VARGPT

欢迎交流~,带你学习AI,了解AI