统一多模态理解与生成模型：进展、挑战与机遇|信号|多模态|生成模型

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

统一的多模态理解与生成模型：进展、挑战与机遇

摘要

近年来，多模态理解模型和图像生成模型均取得了显著进展。尽管二者各自取得了成功，但这两个领域却独立发展，形成了不同的架构范式：基于自回归的架构在多模态理解中占据主导地位，而基于扩散的模型则成为图像生成的基石。近期，学界对开发整合这两类任务的统一框架的兴趣日益增长。GPT-4o所展现的新能力正是这一趋势的例证，凸显了统一架构的潜力。然而，两个领域之间的架构差异也带来了重大挑战。为清晰梳理当前在统一方向上的努力，我们提供了一份全面综述，旨在指导未来研究。首先，我们介绍了多模态理解与文本到图像生成模型的基础概念及最新进展。接着，我们回顾了现有的统一模型，并将其归纳为三大主要架构范式：基于扩散的、基于自回归的，以及融合自回归与扩散机制的混合方法。针对每一类范式，我们分析了相关工作所采用的结构设计与创新之处。此外，我们汇总了专为统一模型定制的数据集与评测基准，为后续探索提供资源支持。最后，我们讨论了这一新兴领域面临的关键挑战，包括分词（tokenization）策略、跨模态注意力机制以及数据问题。鉴于该领域尚处于早期阶段，我们预计将出现快速进展，并将持续更新本综述。我们的目标是激发更多研究，并为社区提供一份有价值的参考文献。本综述的相关参考文献可在 https://github.com/AIDC-AI/Awesome-UnifiedMultimodal-ModelsIndex 获取。

关键词—统一多模态模型，多模态理解，图像生成，自回归模型，扩散模型

1 引言

近年来，大型语言模型（LLMs）的快速发展，如 LLaMa [1]、[2]、PanGu [3]、[4]、Qwen [5]、[6] 和 GPT [7]，彻底改变了人工智能领域。这些模型在规模和能力上不断扩展，推动了众多应用场景中的突破性进展。与此同时，LLMs 已被拓展至多模态领域，催生了强大的多模态理解模型，例如 LLaVa [8]、Qwen-VL [9]、[10]、InternVL [11]、Ovis [12] 和 GPT-4 [13]。这些模型的能力已不再局限于简单的图像描述生成，而是能够根据用户指令执行复杂的推理任务。

另一方面，图像生成技术也经历了迅猛发展，诸如 SD 系列 [14]、[15] 和 FLUX [16] 等模型如今已能生成高度符合用户提示的高质量图像。

当前，LLMs 及多模态理解模型主要采用自回归生成架构 [17]，该范式依赖纯解码器结构，并通过逐词预测实现序列化文本生成。相比之下，文本到图像生成领域则沿着不同的技术路径演进：早期以生成对抗网络（GANs）[18] 为主导，随后转向基于扩散的模型 [19]。这类扩散模型通常采用 UNet [14] 或 DiT [20]、[21] 等架构，并结合 CLIP [22] 和 T5 [23] 等先进的文本编码器。尽管已有部分研究尝试将受 LLM 启发的架构用于图像生成 [24]、[25]、[26]，但就当前性能而言，基于扩散的方法仍是图像生成领域的最先进方案。

尽管自回归模型在图像生成质量上尚不及扩散方法，但其与 LLM 在结构上的一致性使其在构建统一多模态系统方面极具吸引力。一个能够同时理解和生成多模态内容的统一模型具有巨大潜力：它可根据复杂指令生成图像、对视觉数据进行推理，并通过生成的输出可视化多模态分析结果。2025 年 3 月发布的 GPT-4o 所展现出的增强能力 [27] 进一步凸显了这一潜力，引发了学术界和工业界对统一架构的广泛关注。

然而，设计此类统一框架面临重大挑战。它需要将自回归模型在推理和文本生成方面的优势，与基于扩散的模型在高质量图像合成方面的强大能力有效整合。一些关键问题仍未解决，其中就包括如何为自回归生成有效地对图像进行分词（tokenization）。部分方法 [28]、[29]、[30] 采用扩散模型流程中常用的 VAE [31] 或 VQ-GAN [32] 及其相关变体；而其他方法 [33]、[34]、[35] 则利用语义编码器，如 EVA-CLIP [36] 和 OpenAI-CLIP [22]。此外，尽管离散 token 是自回归模型中文本的标准表示形式，但新兴研究表明，连续表征可能更适合图像 token [25]。

除了分词问题之外，融合并行扩散策略与序列化自回归生成的混合架构 [37]、[38]、[39] 也提供了另一条有前景的路径，相较于单纯的自回归架构更具潜力。因此，无论是图像分词技术还是整体架构设计，在统一多模态模型中都仍处于早期发展阶段。

为全面概述当前统一多模态模型的研究现状（如图 1 所示），从而助力未来研究工作，我们撰写了本综述。首先，我们介绍多模态理解与图像生成领域的基础概念及最新进展，涵盖自回归与扩散两种范式。接着，我们回顾现有的统一模型，并将其划分为三大主要架构范式：基于扩散的、基于自回归的，以及融合自回归与扩散机制的混合方法。在自回归与混合类别中，我们进一步根据其图像分词策略对模型进行细分，以反映该领域方法的多样性。

除架构之外，我们还汇总了专为训练和评估统一多模态模型而设计的数据集与评测基准。这些资源覆盖多模态理解、文本到图像生成、图像编辑及其他相关任务，为后续探索奠定基础。最后，我们讨论了这一新兴领域面临的关键挑战，包括高效的分词策略、数据构建、模型评估等。应对这些挑战对于提升统一多模态模型的能力与可扩展性至关重要。

在学术界，已有诸多优秀的综述分别聚焦于大型语言模型 [40]、[41]、多模态理解 [42]、[43]、[44] 以及图像生成 [45]、[46]。而本文则专门关注理解任务与生成任务的集成。我们鼓励读者参考这些互补性综述，以获得更广泛的相关背景知识。我们的目标是激发这一快速演进领域的进一步研究，并为社区提供一份有价值的参考。本综述相关的参考资料、数据集和评测基准已整理至 GitHub 页面，并将持续更新以反映最新进展。

2 预备知识

2.1 多模态理解模型

多模态理解模型是指基于大型语言模型（LLM）的架构，能够接收、推理并从多模态输入中生成输出 [47]。这些模型将 LLM 的生成与推理能力从纯文本数据扩展至多种信息模态，从而实现对不同模态信息的丰富语义理解 [42], [48]。现有方法的大部分工作聚焦于视觉-语言理解（Vision-Language Understanding, VLU），即整合视觉（如图像和视频）与文本输入，以支持对空间关系、物体、场景及抽象概念的更全面理解 [49], [50], [51]。图 2 展示了多模态理解模型的典型架构。

这类模型运行于混合输入空间：文本数据以离散形式表示，而视觉信号则被编码为连续表征 [52]。与传统 LLM 类似，其输出通过基于分类的语言建模方式，从内部表征中生成离散 token，并采用任务特定的解码策略 [8], [53]。

早期的 VLU 模型主要采用双编码器架构来对齐视觉与文本模态：图像和文本首先分别编码，再通过对其潜在表征进行联合推理，代表性工作包括 CLIP [22]、ViLBERT [54]、VisualBERT [55] 和 UNITER [56]。尽管这些开创性模型确立了多模态推理的关键原则，但它们严重依赖基于区域的视觉预处理和分离的编码器，限制了模型的可扩展性与通用性。

随着强大 LLM 的出现，VLU 模型逐渐转向仅使用解码器的架构，通常采用冻结或仅微调少量参数的 LLM 主干网络。这些方法主要通过不同结构的连接器（connector）将图像嵌入映射到 LLM 的 token 空间，如图 2 所示。具体而言，MiniGPT-4 [57] 使用单个可学习层，将 CLIP 提取的图像嵌入投影到 Vicuna [58] 的 token 空间；BLIP-2 [53] 引入了一个查询 Transformer，将冻结的视觉编码器与冻结的 LLM（如 Flan-T5 [59] 或 Vicuna [58]）桥接起来，以极少的可训练参数实现高效的视觉-语言对齐；Flamingo [60] 则采用门控交叉注意力层，将预训练的视觉编码器与冻结的 Chinchilla [61] 解码器相连接。

近期 VLU 的进展体现出向通用多模态理解的转变。GPT-4V [62] 将 GPT-4 框架 [13] 扩展至支持用户提供的图像输入，在视觉推理、图像描述和多模态对话方面展现出强大能力，尽管其具体实现未公开。Gemini [63] 基于纯解码器架构，支持图像、视频和音频等多种模态，其 Ultra 版本在多模态推理任务中设立了新的性能标杆。Qwen 系列体现了可扩展的多模态设计思路：Qwen-VL [5] 引入了视觉感受器和定位模块，而 Qwen2-VL [9] 进一步增加了动态分辨率处理能力和 M-RoPE 机制，以稳健地处理多样化的输入。LLaVA-1.5 [64] 和 LLaVA-Next [65] 采用基于 CLIP 的视觉编码器与 Vicuna 风格的 LLM，在视觉问答（VQA）和指令遵循任务中取得具有竞争力的性能。InternVL 系列 [11], [66], [67] 探索了一种统一的多模态预训练策略，同时从文本和视觉数据中学习，以提升各类视觉-语言任务的表现。Ovis [12] 通过一个可学习的视觉嵌入查找表引入结构嵌入对齐机制，使生成的视觉嵌入在结构上与文本 token 对应。

最近，一些模型开始探索面向多模态处理的可扩展且统一的架构。例如，DeepSeek-VL2 [68] 采用混合专家（Mixture-of-Experts, MoE）架构以增强跨模态推理能力。总体而言，这些模型清晰地展现出向指令微调、以 token 为中心的统一框架演进的趋势，能够以可扩展的方式处理多样化的多模态任务。

2.2 文本到图像模型

扩散模型。扩散模型（DM）将生成过程建模为一对马尔可夫链：一个前向过程，通过在 T 个时间步内逐步向数据 x₀ 添加高斯噪声以产生 xₜ；以及一个反向过程，学习一个参数化分布，以迭代方式去噪并恢复至原始数据流形 [19], [69], [70]。形式上，如图 3 所示，在前向过程中，给定数据分布 x₀ ~ q(x₀)，在每一步 t，数据 xₜ 被添加噪声：

其中，网络参数化了均值 μθ(xₜ, t) 和方差 Σθ(xₜ, t)。该网络以带噪数据 xₜ 和时间步 t 作为输入，输出用于噪声预测的正态分布参数。噪声向量通过从 p(xₜ) 中采样 xₜ 开始，然后依次从学习到的转移核 xₜ₋₁ ~ pθ(xₜ₋₁ | xₜ) 中采样，直至 t = 1。训练目标是最小化负对数似然的变分下界：ℒ = {q(x₀,x₁:T)} [‖εθ(xₜ, t) − ε*(xₜ, t)‖²]，其中 εθ(xₜ, t) 是模型在时间步 t 对噪声的预测，而 ε*(xₜ, t) 是该时间步实际添加的噪声。

早期的扩散模型采用 U-Net 架构来近似得分函数 [19]。U-Net 设计基于宽残差网络（Wide ResNet），融合了残差连接和自注意力模块，以保留梯度流并恢复精细的图像细节。这些方法大致可分为像素级方法和潜在特征级方法。像素级方法直接在像素空间中执行扩散过程，包括 GLIDE [71]（引入了“无分类器引导”）和 Imagen [72]（使用预训练的大语言模型，即 T5-XXL [23]，作为文本编码器）。然而，这些方法存在高昂的训练与推理计算成本，从而推动了潜在扩散模型（Latent Diffusion Models, LDMs）[14] 的发展——这类模型在预训练变分自编码器的潜在空间中运行。LDMs 在保持高生成质量的同时实现了计算效率，从而启发了多种基于扩散的生成模型，如 VQ-Diffusion [73]、SD 2.0 [74]、SD XL [75] 和 UPainting [76]。

Transformer 架构的进步促使扩散过程中采用了基于 Transformer 的模型。开创性的扩散 Transformer（DiT）[20] 将输入图像转换为一系列图像块，并将其送入一系列 Transformer 块中处理。DiT 还接收额外的条件信息作为输入，例如扩散时间步 t 和条件信号 c。DiT 的成功启发了许多先进的生成方法，包括 REPA [77]（将自监督视觉表征注入扩散训练以增强大规模性能）、SD 3.0 [15]（使用两组独立权重分别建模文本和图像模态），以及其他方法 [78], [79], [80]。对于文本编码器，这些方法主要利用对比学习，在共享的潜在空间中对齐图像与文本模态，这通常是在大规模图文配对数据上联合训练独立的图像和文本编码器实现的 [22], [53], [81]。具体而言，GLIDE [71] 探索了 CLIP 引导与无分类器引导，证明了 CLIP 条件下的扩散模型优于早期 GAN 基线，并支持强大的文本驱动编辑功能。SD [14] 使用冻结的 CLIP-ViT-L/14 编码器为其潜在扩散去噪器提供条件，从而在高效计算下获得高质量样本。SD 3.0 [15] 则利用 CLIP ViT-L/14、OpenCLIP bigG/14 和 T5-v1.1 XXL 将文本转换为嵌入表示，用于生成引导。

扩散模型的最新进展已将大型语言模型（LLMs）引入文本到图像的扩散生成中 [82]、[83]，显著提升了文本与图像之间的对齐程度以及生成图像的质量。
RPG [83] 利用多模态 LLM 所蕴含的视觉-语言先验，从文本提示中推理出互补的空间布局，并在文本引导的图像生成与编辑过程中操控对象的组合结构。然而，这些方法针对不同任务需要采用不同的模型架构、训练策略和参数配置，给模型管理带来了挑战。一种更具可扩展性的解决方案是采用统一的生成模型，以处理多种数据生成任务 [84]、[85]、[86]、[87]。
OmniGen [84] 实现了文本到图像生成能力，并支持多种下游任务，如图像编辑、特定主体生成和视觉条件生成。UniReal [85] 将图像级任务视为非连续视频生成，将数量可变的输入与输出图像视为视频帧，从而无缝支持图像生成、编辑、定制和合成等任务。GenArtist [86] 提供了一个由多模态大语言模型（MLLM）智能体协调的统一图像生成与编辑系统。UniVG [87] 将多模态输入视为统一的条件，通过单一权重集支持各类下游应用。随着该领域研究的不断推进，预计将涌现出越来越多的统一模型，能够应对更广泛的图像生成与编辑任务。

自回归模型。自回归（Autoregressive, AR）模型通过将序列的联合分布分解为一系列条件概率的乘积来定义该分布，其中每个元素依次基于所有先前生成的元素进行预测。这一范式最初为语言建模而提出，现已成功应用于视觉领域，其核心思想是将图像映射为一维的离散 token 序列（如像素、图像块或潜在编码）。形式上，给定一个序列，模型通过以所有前序元素为条件来生成每个元素：

如图 4 所示，现有方法根据序列表示策略可分为三类：基于像素的模型、基于 token 的模型和基于多 token 的模型。

1）基于像素的模型。PixelRNN [88] 是最早进行下一像素预测的方法。它将二维图像转换为一维像素序列，并使用 LSTM 层依次根据先前生成的像素值生成每个新像素。尽管该方法在建模空间依赖关系方面有效，但计算成本高昂。PixelCNN [89] 引入了空洞卷积（dilated convolutions），以更高效地捕捉长距离像素依赖；而 PixelCNN++ [90] 则采用离散化逻辑混合似然（discretized logistic mixture likelihood）和架构改进，进一步提升了图像质量和生成效率。一些更先进的工作 [91] 还提出了并行化方法，以降低计算开销，尤其适用于高分辨率图像的快速生成。

2）基于 token 的模型。受自然语言处理范式的启发，基于 token 的自回归（AR）模型将图像转换为紧凑的离散 token 序列，大幅缩短序列长度，从而支持高分辨率图像合成。该过程始于向量量化（Vector Quantization, VQ）：一个通过重建损失和承诺损失（commitment loss）训练的编码器-解码器学习一个紧凑的潜在索引码本（codebook），随后使用纯解码器 Transformer 对这些 token 上的条件分布进行建模 [92]。典型的 VQ 模型包括 VQ-VAE-2 [93]、VQGAN [32]、ViT-VQGAN [94] 以及其他相关方法 [95]、[96]、[97]。许多研究致力于增强纯解码器 Transformer 模型。例如，LlamaGen [24] 将 VQGAN 分词器应用于 LLaMA 主干网络 [1]、[2]，在生成质量上达到与 DiT 相当的水平，并表明随着参数量增加，生成质量持续提升。与此同时，数据高效的变体如 DeLVM [98] 在使用显著更少数据的情况下实现了相当的保真度；而 AiM [26]、ZigMa [99] 和 DiM [100] 则引入了来自 Mamba [101] 的线性或门控注意力层，以实现更快的推理速度和更优性能。

为丰富上下文建模，研究者还提出了随机性和混合解码策略。SAIM [102]、RandAR [103] 和 RAR [104] 通过随机打乱图像块的预测顺序，以克服固定的光栅扫描（raster）偏置；SAR [105] 则将因果学习推广至任意顺序和跳跃间隔。混合框架进一步融合不同范式：RAL [106] 利用对抗策略梯度缓解暴露偏差（exposure bias）；ImageBART [107] 将分层扩散更新与 AR 解码交错进行；DisCo-Diff [108] 则在扩散解码器中引入离散潜在表示，实现了当时最优的 FID 性能。

3）基于多 token 的方法。为提升生成效率，近期的 AR 模型已从逐个生成 token 转向以组为单位预测多个 token，在不损失质量的前提下显著加速生成过程。Next Patch Prediction（NPP）[109] 将图像 token 聚合为信息密度更高的 patch 级 token，从而大幅缩短序列长度。类似地，Next Block Prediction（NBP）[110] 将分组扩展到更大的空间块，例如整行或完整帧。Neighboring AR（NAR）[111] 提出使用局部化的“近邻”机制向外预测；Parallel Autoregression（PAR）[112] 则将 token 划分为互不相交的子集以实现并行解码。MAR [25] 放弃了离散分词和固定顺序，转而采用连续表征，并使用扩散损失进行训练。

除空间分组外，VAR [113] 提出了由粗到细的“下一尺度”（next-scale）范式，启发了一系列先进方法，包括 FlowAR [114]、M-VAR [115]、FastVAR [116] 和 FlexVAR [117]。一些基于频域的方法则在频谱层面分解生成过程：FAR [118] 和 NFIG [119] 先合成低频结构，再逐步细化高频细节。xAR [120] 则在一个统一框架下抽象地整合了多种自回归单元，包括图像块（patches）、单元格（cells）、尺度（scales）乃至整幅图像。这些多 token 方法表明，在现代图像生成中，合理定义自回归单元对于在保真度、效率和可扩展性之间取得平衡至关重要。

控制机制也已被集成到自回归解码器中，以实现更精确的编辑。ControlAR [121] 在解码过程中引入边缘图、深度线索等空间约束，从而实现对 token 级编辑的细粒度控制。ControlVAR [122] 进一步发展了这一理念，通过对图像级特征施加尺度感知的条件控制，增强了生成结果的一致性与可编辑性。CAR [123] 则在类似概念基础上进行了扩展，聚焦于自回归模型中的高级控制机制，以提升视觉输出的细节表现力和适应性。

针对涉及多个对象或时间上连贯序列的复杂场景，Many-to-Many Diffusion（M2M）[124] 将自回归框架适配于多帧生成任务，确保跨图像的语义一致性和时间连贯性。MSGNet [125] 结合 VQ-VAE 与自回归建模，在场景中多个实体之间保持空间-语义对齐。在医学领域，MVG [126] 将自回归图像到图像生成扩展至分割、合成和去噪等任务，通过配对的提示-图像输入进行条件生成。

这些文本到图像生成的自回归方法为模型架构和视觉建模技术奠定了基础，有效推动了面向理解与生成的统一多模态模型的研究进展。

3 面向理解与生成的统一多模态模型

统一多模态模型旨在构建单一架构，能够跨多种模态同时进行理解和生成。这类模型被设计用于处理多样化的输入形式（例如文本、图像、视频、音频），并以统一的方式在一种或多种模态中生成输出。一个典型的统一多模态框架可抽象为三个核心组件：

模态特定编码器（modality-specific encoders）：将不同输入模态投影到统一的表征空间；
模态融合主干网络（modality-fusion backbone）：整合来自多个模态的信息，并支持跨模态推理；
模态特定解码器（modality-specific decoders）：在目标模态中生成输出（例如文本生成或图像合成）。

本节主要聚焦于支持视觉-语言理解与生成的统一多模态模型，即能够同时接收图像和文本作为输入，并输出文本或图像的模型。如图 5 所示，现有统一模型大致可分为三大类：基于扩散的模型、基于自回归的模型，以及融合自回归与扩散机制的模型（fused AR + diffusion models）。

对于自回归模型，我们进一步根据其模态编码方法细分为四个子类别：

基于像素的编码（pixel-based encoding）
基于语义的编码（semantic-based encoding）
基于可学习查询的编码（learnable query-based encoding）
混合编码（hybrid encoding）

这些编码策略代表了处理视觉与文本数据的不同方式，导致多模态表征在集成程度和灵活性上存在差异。

融合 AR + 扩散的模型则根据模态编码方式分为两类：基于像素的编码和混合编码。这类模型结合了自回归与扩散技术的优势，为实现更统一、高效的多模态生成提供了有前景的路径。

在接下来的小节中，我们将深入探讨每一类模型：

第 3.1 节探讨基于扩散的模型，讨论其在从含噪表征中生成高质量图像和文本方面的独特优势；
第 3.2 节聚焦基于自回归的模型，详细分析不同编码方法如何影响其在视觉-语言任务中的性能；
第 3.3 节涵盖融合 AR + 扩散的模型，考察这两种范式结合如何增强多模态生成能力。

最后，我们将讨论扩展至任意到任意（any-to-any）的多模态模型，该类模型将上述框架从视觉与语言推广至更广泛的模态（如音频、视频和语音），旨在构建通用、通用目的的生成模型。

3.1 扩散模型

扩散模型在图像生成领域取得了显著成功，这主要归功于若干关键优势。
首先，与生成对抗网络（GANs）相比，扩散模型能提供更优的样本质量，具有更好的模式覆盖能力，并有效缓解模式崩溃和训练不稳定等常见问题 [201]。
其次，其训练目标——从轻微扰动的数据中预测所添加的噪声——是一个简单的监督学习任务，避免了对抗训练中的动态不稳定性。
第三，扩散模型具有高度灵活性，允许在采样过程中融入多种条件信号，例如分类器引导（classifier guidance）[201] 和无分类器引导（classifier-free guidance）[202]，从而增强可控性与生成保真度。此外，噪声调度策略的改进 [203] 以及加速采样技术的发展 [204], [205] 显著降低了计算负担，使扩散模型日益高效且可扩展。

借助这些优势，研究者已将扩散模型从单模态任务拓展至多模态生成，旨在构建一个统一框架，同时支持文本与图像输出。如图 5(a) 所示，在多模态扩散模型中，去噪过程不仅以时间步和噪声为条件，还以多模态上下文（如文本描述、图像或联合嵌入）为条件。这种扩展实现了跨模态的同步生成，并在生成结果之间建立了丰富的语义对齐。

代表性工作之一是 Dual Diffusion [127]，它引入了一种双分支扩散过程，用于联合生成文本与图像。具体而言，给定一个图文对，Dual Diffusion 首先使用预训练的 T5 编码器 [23]（采用 softmax 概率建模）对文本进行编码，获得离散的文本表征；同时使用 Stable Diffusion [14] 中的 VAE 编码器对图像进行编码，得到连续的图像潜在表示。随后，文本和图像潜在变量分别通过独立的前向扩散过程被加噪，在每个时间步生成对应的带噪潜在变量。在反向过程中，模型使用两个模态特定的去噪器——基于 Transformer 的文本去噪器和基于 UNet 的图像去噪器——联合对文本和图像潜在变量进行去噪。关键在于，每个时间步中，两个去噪器都引入跨模态条件：文本潜在变量关注图像潜在变量，反之亦然，从而在整个去噪轨迹中实现模态间的语义对齐。去噪完成后，文本潜在变量通过 T5 解码器还原为自然语言，图像潜在变量则通过 VAE 解码器重建为高保真图像。训练由两个独立的损失项监督：图像分支最小化标准的噪声预测损失，文本分支则最小化对比对数损失（contrastive log-loss）。通过耦合两条扩散链并引入显式的跨模态交互，Dual Diffusion 实现了从纯噪声出发的连贯且可控的多模态生成。

与 Dual Diffusion [127] 不同（后者通过 Stable Diffusion [14] 将离散文本扩散与连续图像扩散结合），UniDisc[128] 采用完全离散的扩散框架，从零开始训练一个扩散 Transformer（Diffusion Transformer）[206]。它使用 LLaMA2 分词器 [2] 对文本进行分词，并利用 MAGVIT-v2 编码器 [207] 将图像转换为离散 token，从而在统一的离散 token 空间中融合两种模态。这些 token 经历一个离散前向扩散过程，其中结构化噪声被同时施加到所有模态上。在反向过程中，UniDisc 逐步去噪这些 token，生成连贯序列。随后，LLaMA2 和 MAGVIT-v2 解码器将这些序列分别转换为高质量的文本和图像。通过全离散方法，UniDisc 实现了文本与图像 token 的同步优化，提升了推理效率，并支持灵活的跨模态条件控制。

与早期基于离散扩散的方法不同，FUDOKI [130] 提出了一种基于离散流匹配（discrete flow matching）[208] 的新型生成方法。在该框架下，FUDOKI 通过一条动力学最优、由度量诱导的概率轨迹，直接建模噪声分布与数据分布之间的路径。这一设计引入了连续的自校正机制，在生成效果上明显优于早期模型所采用的简单掩码策略。FUDOKI 的模型架构基于 Janus-1.5B [174]，但为支持统一的视觉-语言离散流建模，进行了关键修改：
一是将标准的因果掩码替换为全注意力掩码，使每个 token 都能关注所有其他 token，从而增强全局上下文理解能力。尽管这一改动移除了显式的因果结构，但模型仍可通过将输出 logits 整体偏移一位来支持下一 token 预测。
二是 FUDOKI 不依赖扩散模型中常见的显式时间步嵌入，而是直接从输入数据中推断当前的“损坏”（corruption）状态。
此外，FUDOKI 延续 Janus-1.5B 的设计，将理解与生成路径解耦：使用 SigLIP 编码器 [209] 提取用于图像理解的高层语义特征，而图像生成则通过 LlamaGen [24] 中基于 VQGAN 的分词器将图像编码为低层离散 token 序列。在输出阶段，Janus-1.5B 主干网络生成的特征嵌入被送入模态特定的输出头，分别生成最终的文本和图像。

类似地，Muddit [131] 提出了一种基于纯离散扩散框架的统一模型，用于文本与图像的双向生成。其架构包含一个单一的多模态扩散 Transformer（MM-DiT），结构设计类似于 FLUX [210]。为利用强大的图像先验，MM-DiT 生成器初始化自 Meissonic [211]——一个专为高分辨率合成而广泛训练的模型。两种模态均被量化到共享的离散空间：图像通过预训练的 VQ-VAE [32] 编码为码本索引，文本则通过 CLIP 模型 [22] 提供 token 嵌入。在统一训练过程中，Muddit 采用余弦调度策略进行 token 掩码，并训练单一的 MM-DiT 生成器根据另一模态条件预测干净的 token。输出时，轻量级线性头解码文本 token，VQ-VAE 解码器重建图像，从而实现单套参数同时处理文本与图像生成。

在此基础上，MMaDA [129] 进一步将扩散范式扩展为统一的多模态基础模型。它采用 LLaDA-8B-Instruct [212] 作为语言主干，并使用 MAGVIT-v2 [213] 图像分词器将图像转换为离散语义 token。这一统一的 token 空间使得生成过程中可无缝进行多模态条件控制。为提升跨模态对齐，MMaDA 引入了一种混合思维链（mixed chain-of-thought, CoT）微调策略，统一了文本与视觉任务的推理格式。这种对齐机制支持“冷启动”强化学习（cold-start RL），使模型从训练初期即可有效进行后训练优化。此外，MMaDA 还提出了一种新颖的 UniGRPO 方法——一种专为扩散模型设计的统一策略梯度强化学习算法。UniGRPO 利用多样化的奖励信号（如事实正确性、图文对齐度和用户偏好），在推理与生成任务上同时进行后训练优化，确保模型在广泛能力维度上持续提升，而非过拟合于单一任务奖励。

尽管上述方法颇具创新性，统一离散扩散模型仍面临显著挑战与局限。
首要问题是推理效率。尽管 Mercury [214] 和 Gemini Diffusion [215] 等模型展示了高速并行 token 生成的潜力，但大多数开源离散扩散模型在实际推理速度上仍落后于自回归模型。这一差距主要源于缺乏对 key-value 缓存的支持，以及在并行解码多个 token 时生成质量显著下降的问题。
其次，训练难度也制约了扩散模型的有效性。与自回归训练中每个 token 都提供学习信号不同，离散扩散训练仅对随机选择的掩码 token 子集计算损失，导致监督信号稀疏，训练语料利用率低且方差高。
此外，这些模型存在长度偏差（length bias），难以泛化到不同输出长度，因为它们缺乏自回归模型中天然存在的结束符（如 EOS token）作为停止机制。
在架构与基础设施方面也亟需改进。许多现有模型直接复用为自回归系统设计的架构，这种工程上的简化选择并不总是适合扩散过程——扩散旨在建模联合数据分布，其本质与自回归模型的序列生成机制截然不同。在基础设施层面，离散扩散模型的支持仍十分有限：相比自回归模型成熟的框架生态，它们缺乏完善的训练/推理流水线和健壮的开源工具，这阻碍了公平比较、延缓了研究进展，并增加了实际部署的复杂性。

综上所述，要推动统一离散扩散模型的能力提升与实际应用，必须协同解决推理、训练、架构和基础设施等相互关联的挑战。

3.2 自回归模型

统一多模态理解与生成模型的一个主要方向采用自回归（Autoregressive, AR）架构，其中视觉和语言 token 通常被序列化并按顺序建模。在这些模型中，主干网络通常是一个 Transformer，其结构源自大型语言模型（LLMs），例如 LLaMA 系列 [1]、[2]、[216]、Vicuna [58]、Gemma 系列 [217]–[219] 以及 Qwen 系列 [5]、[6]、[9]、[10]，作为统一的模态融合模块，以自回归方式预测多模态输出。

为将视觉信息整合进 AR 框架，如图 5 所示，现有方法在模态编码阶段提出了不同的图像分词策略。这些方法大致可分为四类：基于像素的编码（pixel-based）、基于语义的编码（semantic-based）、基于可学习查询的编码（learnable query-based）以及混合编码（hybrid-based）。

1）基于像素的编码如图 5(b-1) 所示，基于像素的编码通常指通过预训练的自编码器（仅以图像重建为目标进行监督）将图像表示为连续或离散 token，例如 VQGAN 类模型 [32]、[220]–[222]。这些编码器将高维像素空间压缩为紧凑的潜在空间，其中每个空间图像块对应一个图像 token。在统一的多模态自回归模型中，由此类编码器序列化的图像 token 与文本 token 类似处理，使得两种模态可在单一序列中联合建模。

近期工作通过不同编码器设计对基于像素的分词进行了改进。LWM [29] 使用 VQGAN 分词器 [32] 将图像编码为离散潜在码，无需语义监督。它提出了一种多模态世界建模框架，将视觉与文本 token 序列化后进行统一的自回归建模。LWM 仅通过基于重建的视觉 token 和文本描述学习世界动态，证明了在不依赖专门语义分词的情况下，大规模多模态生成是可行的。

Chameleon [30] 和 ANOLE [132] 采用 VQ-IMG [222]——一种专为内容丰富的图像生成设计的改进型 VQ-VAE。相比标准 VQGAN 分词器，VQ-IMG 采用更深的编码器、更大的感受野，并引入残差预测机制，以更好地保留复杂视觉细节。这一增强使 Chameleon 和 ANOLE 能更忠实地序列化图像内容，从而支持高质量的多模态生成。此外，这些模型支持交错生成（interleaved generation），允许在统一的自回归框架内交替生成文本与图像 token。

Emu3 [133]、SynerGen-VL [136] 和 UGen [138] 采用 SBER-MoVQGAN [220]、[221]——一种多尺度 VQGAN 变体，可将图像编码为同时捕捉全局结构与细粒度细节的潜在表示。通过多尺度分词，这些模型提升了视觉表征在自回归建模中的表达能力，同时保持高效的训练吞吐量。

与 LWM [29] 类似，Liquid [137] 使用 VQGAN 风格的分词器，并揭示了一个新见解：当视觉理解与生成在单一自回归目标和共享视觉 token 表示下统一时，二者可相互促进。

此外，MMAR [134]、Orthus [135] 和 Harmon [139] 提出使用其对应编码器提取的连续值图像 token，避免了离散化带来的信息损失。它们还将扩散过程与 AR 主干解耦，在每个自回归生成的图像块嵌入之上叠加轻量级扩散头。该设计确保主干网络的隐藏表征不局限于最终去噪步骤，从而促进更好的图像理解。

TokLIP [140] 将低层离散 VQGAN 分词器与基于 ViT 的 token 编码器 SigLIP [209] 结合，以捕获高层连续语义，不仅赋予视觉 token 高层语义理解能力，也增强了底层生成能力。

Selftok [141] 引入了一种新颖的离散视觉自一致性分词器，在高质量重建与压缩率之间取得良好平衡，同时支持有效的视觉强化学习中的最优策略改进。

除 MMAR [134] 和 Harmon [139] 外，上述模型在预训练和生成阶段均采用因果注意力掩码，确保每个 token 仅关注序列中先前的 token。它们使用下一 token 预测损失进行训练，图像与文本 token 均以自回归方式预测，从而实现跨模态的统一训练目标。

值得注意的是，在基于像素的编码方法中，用于从潜在 token 重建图像的解码器通常沿用 VQGAN 类模型最初提出的配对解码器结构。这些解码器是轻量级卷积架构，专门优化用于将离散潜在网格映射回像素空间，主要聚焦于准确的底层重建，而非高层语义推理。

此外，由于 MMAR [134]、Orthus [135] 和 Harmon [139] 等方法将图像分词为连续潜在变量，它们采用轻量级扩散 MLP 作为解码器，将连续潜在变量映射回像素空间。

尽管有效，基于像素的编码方法仍面临若干固有局限：第一，由于视觉 token 仅针对像素级重建优化，往往缺乏高层语义抽象，使得文本与图像表征之间的跨模态对齐更具挑战性。第二，像素级分词倾向于生成密集的 token 网格，显著增加序列长度（尤其在高分辨率图像下），导致自回归训练与推理过程中巨大的计算与内存开销，限制了可扩展性。第三，由于底层视觉编码器以重建为中心进行训练，所得视觉 token 可能保留模态特异性偏差，例如对纹理和底层模式过度敏感，而这对于语义理解或细粒度跨模态推理未必最优。

2）基于语义的编码为克服像素级编码器的语义局限，越来越多的工作采用语义编码：如图 5(b-2) 所示，图像输入通过预训练的文本对齐视觉编码器处理，例如 OpenAI-CLIP [22]、SigLIP [209]、EVA-CLIP [36]，或更近期的统一分词器如 UNIT [223]。

部分模型利用多模态自回归模型编码的多模态特征作为扩散模型的条件，从而在保留多模态理解能力的同时实现图像生成。例如：

OmniGen2 [158] 利用 Qwen2.5-VL [10] 作为多模态模型，结合增强版 OmniGen [224] 作为图像扩散模型；
Ovis-U1 [159] 在多模态模型 Ovis [12] 基础上，通过定制设计的扩散 Transformer 扩展为统一模型；
Qwen-Image [161] 同样基于 Qwen2.5-VL [10]，集成扩散 Transformer 实现统一生成。

然而，大多数此类模型在大规模图文对上通过对比学习或回归目标进行训练，生成的视觉嵌入在共享语义空间中与语言特征高度对齐。这类表征能实现更有效的跨模态对齐，特别有利于多模态理解与生成。

多个代表性模型利用不同的语义编码器和架构设计支持统一多模态任务：

Emu [142]、Emu2 [33] 和 LaViT [143] 均采用 EVA-CLIP [36] 作为视觉编码器。其中，Emu [142] 首次提出结合冻结的 EVA-CLIP 编码器、大语言模型和扩散解码器，统一支持 VQA、图像描述和图像生成；Emu2 [33] 在此基础上提出简化且可扩展的统一多模态预训练框架，并将 MLLM 扩展至 37B 参数，显著提升理解与生成能力。
Bifrost-1 [162] 使用两个语义编码器：ViT 用于生成，MLLM（Qwen2.5-VL）中使用的编码器用于理解，通过预测的 CLIP 潜在变量桥接 MLLM 与扩散模型。
LaViT [143] 在 EVA-CLIP 基础上构建动态视觉分词机制，通过选择器与合并模块根据内容复杂度自适应地从图像嵌入中选择视觉 token，动态决定每张图像的视觉 token 序列长度，显著减少冗余信息、保留关键视觉线索，提升描述、VQA 和图像生成等任务的训练效率与生成质量。

DreamLLM [34]、VL-GPT [35]、MM-Interleaved [144] 和 PUMA [147] 采用 OpenAI-CLIP 编码器 [22]：

DreamLLM [34] 引入轻量线性投影对齐 CLIP 嵌入与语言 token；
VL-GPT [35] 在 CLIP 视觉编码器后接强大因果 Transformer，有效保留原始图像的语义信息与像素细节；
MM-Interleaved [144] 和 PUMA [147] 通过带简单 ViT-Adapter 或池化操作的 CLIP 分词器提取多粒度图像特征，支持细粒度特征融合，从而实现丰富的多模态生成。

Mini-Gemini [145] 引入视觉 token 增强机制，需双语义编码器：使用 CLIP 预训练 ViT 编码器 [22] 获取全局视觉 token，同时用 LAION 预训练 ConvNeXt 编码器提供密集局部视觉信息，再通过交叉注意力模块用局部细节精炼全局 token，随后与文本 token 一起送入 LLM 进行联合理解与生成，有效弥合 CLIP 特征的语义抽象与密集编码器的像素级精度。

MetaMorph [148] 采用 SigLIP [209] 提取视觉嵌入，并在预训练语言模型中引入模态特定适配器，插入多个 Transformer 层，实现比浅层投影更深入的视觉-语言交互。

ILLUME [149] 采用 UNIT [223] 作为视觉编码器，提供兼顾语义对齐与像素保真度的统一表征。不同于纯对比目标的 CLIP 类编码器，UNIT [223] 联合训练图像重建与对比对齐损失，生成的 token 同时适用于视觉-语言理解和图像合成。基于强大的 UNIT 分词器，ILLUME 有效生成兼具语义与像素信息的图像 token，在描述、VQA、文本到图像及交错生成等任务中表现优异。

类似地，VILA-U [146] 和 UniTok [150] 模仿 UNIT [223]，引入图像-文本对比学习，获得一种新型文本对齐视觉分词器，平衡语义对齐与像素保真度。

QLIP [151] 通过二值球面量化（binary-spherical quantization）解决重建与图文对齐任务间的潜在冲突。

Tar [157] 利用 LLM 词汇初始化视觉码本，并引入尺度自适应池化与解码方法，使模型可根据需求调整分词器长度：粗粒度用于高效生成，细粒度用于全面理解。在生成任务中，Tar 利用扩散技术增强 AR 模型的视觉生成效果。

UniFork [153] 利用 VILA-U 的文本对齐视觉特征，但不同于完全共享参数的理解与生成 MLLM，UniFork 仅在浅层共享参数，深层则由不同网络处理各自任务，成功平衡共享学习与任务特异性专业化。

UniCode2 [154] 采用级联码本：沿用 [225] 方法，使用聚类 SigLIP 特征构建的大规模码本作为冻结基础码本，同时引入可学习补充码本以精炼特定任务语义，提升利用率并促进稳健学习。

近期工作 DualToken [152] 利用 SigLIP 的浅层特征用于重建、深层特征用于语义学习，同时获取纹理与语义视觉特征，在重建与语义任务中均表现优越，并在下游 MLLM 理解与生成任务中效果显著。

X-Omni [160] 采用 SigLIP-VQ 作为视觉编码器，并利用强化学习缓解自回归推理中的累积误差及离散编码固有的信息损失，大幅增强离散自回归模型的生成质量，实现图像与语言生成的无缝融合。

在大多数此类模型中，MLLM 训练时采用因果注意力掩码，并使用下一 token 预测损失优化文本与视觉 token 的生成。在图像生成方面，多数模型通常采用基于扩散的解码器（如 SD 系列 [14]、[226]、IP-adapter [227]、FLUX [16]、Lumina-Next [228]），这些解码器独立于 MLLM 训练。推理时，MLLM 生成语义级视觉 token，再传递给扩散解码器完成最终图像合成。

这种“语义编码器 + 扩散解码器”的设计源于以下事实：语义嵌入编码高层概念信息，但缺乏直接像素重建所需的空间密度与底层细节。而扩散模型凭借其迭代去噪机制，特别适合此场景——即使输入 token 稀疏或抽象，也能逐步将其精炼为高分辨率、逼真的图像。

相比之下，少数方法（如 VILA-U [146] 和 UniTok [150]）采用像素级解码器，但其生成图像质量不及扩散解码器。因此，扩散解码器为语义压缩的视觉 token 提供了更鲁棒、更具表达力的解码路径，显著提升图文对齐、全局一致性和视觉保真度。

UniWorld [155] 和 Pisces [156] 进一步发展了这一方案：

UniWorld 直接利用预训练 MLLM 的视觉理解输出特征作为高层条件信号，同时使用 SigLIP 作为低层条件信号，为 DiT 提供全面的语义视觉控制；
Pisces 以 EVA-CLIP 作为视觉生成条件，并利用扩散进一步增强模型的视觉生成输出。针对不同任务，Pisces 引入定制的视觉向量长度，并使用不同 MLP 编码条件，既提升模型设计灵活性，又降低推理成本（相比单一编码器配置）。

尽管具有上述优势，语义编码也存在若干局限：第一，由于底层线索被抽象化，所得视觉 token 在像素级可控性较差，难以执行细粒度图像编辑、局部修复或结构保持变换；第二，语义编码器通常仅提供全局或中层表征，对于需要空间对应的任务（如指代表达分割或姿态精确合成）可能不足；第三，由于语义编码器与扩散解码器通常分开训练，缺乏端到端优化，可能导致 MLLM 输出与解码器期望不匹配，偶尔引发语义漂移或生成伪影。

3）基于可学习查询的编码（Learnable Query Encoding）
可学习查询编码已成为一种有效策略，用于生成自适应且任务相关的图像表征。如图 5(b-3) 所示，该方法不依赖固定的视觉分词器或密集图像块，而是引入一组可学习的查询 token，动态地从图像特征中提取信息性内容。这些查询 token 充当内容感知探针，与视觉编码器交互，生成紧凑且语义对齐的嵌入，非常适合多模态理解与生成。

目前，可学习查询编码的实现大致可分为两类代表性范式：

第一类以 SEED [163] 为代表，其提出了一种“种子分词器”（seed tokenizer），用于学习因果视觉嵌入。具体而言，输入图像首先通过 BLIP-2 ViT 编码器 [53] 编码为密集 token 特征；随后，这些特征与一组可学习查询 token 拼接，并送入一个因果 Q-Former，生成因果视觉嵌入。该设计同时采用图像-文本对比学习和图像重建监督进行训练，使所学嵌入既能保留底层视觉细节，又能捕获与文本高度对齐的高层语义。在此基础上，SEED-LLAMA [164] 和 SEED-X [165] 通过将主干网络从 OPT [229] 替换为更强的 LLaMA2 [2]，并将解码器升级为 UnCLIP-SD [14] 或 SDXL [226]，显著提升了理解和生成性能。

第二类由 MetaQueries [166] 提出，提供了一种更简化的可学习查询编码方案。该方法使用冻结的 SigLIP 编码器 [209] 提取图像特征，再与可学习查询 token 拼接后，直接送入冻结的视觉-语言主干网络（如 LLaVA [216] 或 Qwen2.5-VL [10]）。输出的因果嵌入被用作基于扩散的图像解码器的条件输入，实现高质量图像生成。由于主干网络保持冻结，其视觉-语言理解能力与底层预训练模型一致，提供了一种轻量但高效的多模态生成方案。

OpenUni [170] 对 MetaQueries 的架构进行了优化，仅使用可学习查询，并在 MLLM 与扩散模型之间引入一个轻量连接器，促进连贯的多模态理解与生成。OpenUni 表明，MLLM 视觉理解组件与扩散生成组件之间的连接器可以极其简洁——例如仅包含六层 Transformer 即可。

Nexus-Gen [167] 和 Ming-Lite-Uni [168] 遵循 MetaQueries 范式，但引入了显著改进以进一步提升多模态生成能力：

Nexus-Gen [167] 引入了更强大的扩散解码器 FLUX-1.dev，显著提升生成质量，使其能更好地捕捉复杂图像生成任务所需的精细细节与高保真特征；
Ming-Lite-Uni [168] 则采用高性能 MLLM 模型 M2-omini [200] 增强视觉-语言交互，执行高级视觉-语言条件化以生成条件图像嵌入，确保更语义对齐的表征。此外，它通过引入多尺度可学习 token 对扩散模型进行微调，促进不同视觉尺度间的语义对齐，从而提升从文本提示生成细节丰富、上下文连贯图像的能力，有效应对分辨率不匹配和语义不一致等挑战。

Ming-Omni [171] 采用集成的 MoE 架构，通过为每个 token 定制的专用机制实现模态特定路由，从而支持定制化的路由分布。为应对视觉生成中固有的多尺度现象 [113]，Ming-Omni 使用多尺度可学习查询，在对齐策略指导下，从粗到细迭代生成图像。此外，Ming-Omni 还整合了音频模态，并采用两阶段训练策略以缓解音频理解与生成任务之间的相互干扰：第一阶段侧重理解能力，第二阶段聚焦生成质量提升。

BLIP3o [169] 同样利用可学习查询桥接多模态理解与生成，但采用两个扩散模型：一个用于学习 CLIP 嵌入，另一个以 CLIP 为条件生成图像。研究发现，流匹配损失（flow matching loss）比 MSE 损失更有效，能实现更多样化的图像采样并获得更优图像质量。

UniLIP [172] 通过自蒸馏逐步将重建能力融入 CLIP，然后结合可学习查询与 MLLM 最后一层的隐藏状态作为联合条件，该框架被证明能优化视觉编辑中的丰富信息利用。

为挖掘 MLLM 中间层的层次化表征，TBAC-UniImage [173] 在多个 Transformer 层（而非仅最后一层）应用可学习查询。

综上所述，这些基于可学习查询的设计具有共同优势：它们提供自适应、紧凑且语义丰富的表征，同时支持高效的图像理解与高质量生成。通过聚焦任务驱动的 token 提取，这类模型为传统视觉分词器提供了灵活且可扩展的替代方案，尤其适用于统一多模态框架。

尽管具有灵活性和良好前景，可学习查询编码仍存在若干局限，可能限制其广泛应用：
第一，可学习查询 token 会带来额外的计算开销。随着查询数量增加，模型的内存消耗和计算复杂度显著上升，尤其在大规模数据集或复杂多模态任务中更为明显。此外，若采用固定编码器（如 MetaQueries 中的做法），模型在面对与预训练数据分布差异较大的新奇或复杂视觉输入时，灵活性受限。
第二，在 SEED [163] 和 MetaQueries [166] 等方法中，依赖冻结或预训练主干会限制视觉特征对下游任务的适应性。虽然冻结可降低训练成本并保留先验知识，但也阻碍了图像特征与动态演化的查询语义之间的深度对齐，尤其在组合性强或多样的场景中表现不足。
第三，尽管可学习查询能有效捕获任务相关内容，但在处理多样视觉内容时未必均匀有效。例如，包含多个对象、细粒度细节或模糊视觉线索的复杂场景，可能无法被少量可学习查询充分表征。这一局限在需要生成高度细节化输出时尤为明显——固定或小规模查询集可能无法在某些上下文中充分捕捉视觉输入的丰富性与变异性。

4）混合编码（Hybrid Encoding）
为克服单一视觉表征模态的固有局限，统一多模态模型引入了混合编码策略。基于像素的编码方法（如 VQ-VAE 或 VQGAN）擅长保留细粒度视觉细节，但往往缺乏与文本的语义对齐；而基于语义的编码器（如 SigLIP 或 CLIP 变体）生成抽象但语义丰富的表征，却在底层图像保真度方面表现较弱。混合编码旨在融合两者优势，将像素级与语义级特征整合为统一表征。

根据像素 token 与语义 token 的整合方式，混合编码方法可分为两类：伪混合编码（pseudo hybrid encoding）和联合混合编码（joint hybrid encoding）。

伪混合编码
代表性工作包括 Janus [174]、Janus-Pro [175]、OmniMamba [176]、Unifluid [177] 和 MindOmni [178]。如图 5(b-4) 所示，这些模型采用双编码器——通常是一个语义编码器（如 SigLIP）和一个像素编码器（如 VQGAN 或 VAE）——但以任务特定方式使用：

在训练时，语义编码器分支用于视觉-语言理解任务，像素编码器分支用于图像生成任务；
尽管双编码器在联合的理解与生成数据集上并发训练，但在推理时：理解任务不使用像素编码器，文本到图像生成任务则禁用语义编码器。

然而，在图像编辑任务中，Unifluid [177] 使用语义编码器编码源图像，而 MindOmni [178] 则同时使用 VAE 和语义编码器编码源图像。这种设计背后的逻辑是：混合数据训练可提升理解与生成任务的整体性能。

Skywork UniPic [179] 在理解任务中使用 SigLIP2 作为编码器，在生成任务中使用 MAR [25] 作为编码器。但由于任一时刻仅激活一个编码器，这些模型并未充分发挥混合编码的优势——既未能在生成任务中利用语义 grounding，也未能在理解任务中利用高保真视觉细节。因此，这些模型通常采用像素解码器（如 VQGAN）从潜在码重建图像。

联合混合编码
如图 5(b-5) 所示，联合混合编码方法将语义 token 与像素 token 整合为语言模型或解码器的单一统一输入，实现两种表征的同时利用。不同模型采用不同的融合策略：

MUSE-VL [180] 和 UniToken [186] 将 SigLIP 与 VQGAN 的特征沿通道维度拼接后送入 LLM；
Tokenflow [181] 引入双编码器与共享映射的码本，实现高层语义与底层像素细节的联合优化；
VARGPT [182]、VARGPT-1.1 [184] 和 ILLUME+ [185] 则沿序列维度拼接语义与像素 token，使 LLM 输入中同时包含两类 token；
SemHiTok [183] 提出语义引导的层次化码本（SGHC），在完美继承语义码本信息的同时融入纹理信息，实现像素级重建；
与多数方法不同，Show-o2 [187] 并非直接对图像使用不同网络分支，而是对 3DVAE [230] 生成的潜在特征使用独立分支处理，并通过时空融合模块聚合各分支输出，从而同时捕获底层与高层视觉信息。但该操作可能因 3D VAE 对图像/视频的有损压缩而丢失细微语义元素，导致视觉语义细节处理欠佳。

通过整合语义与细节视觉信息，联合混合编码为多模态理解与生成提供了更鲁棒、更具表达力的建模能力。这些模型既支持像素解码器（如 VQGAN、Infinity [231]、VAR-D30 [113]），也支持基于扩散的解码器（如 SDXL [226]），从而生成语义对齐更强、视觉更逼真的图像。

尽管混合编码通过融合像素级与语义级表征的互补优势展现出广阔前景，但仍面临若干挑战：

许多伪混合方法在推理时未同时利用双编码器，未能充分发挥细粒度细节与高层语义之间的协同潜力；
即使在联合混合方法中，异构 token 类型的融合也可能引入模态不平衡或冗余，若未精心设计，可能损害下游性能；
双编码器架构显著增加了计算与内存开销，在高分辨率或长序列场景下面临可扩展性挑战；
像素 token 与语义 token 的对齐仍是一个非平凡问题，隐式不匹配可能导致表征不连贯或学习信号冲突；
当前混合编码技术常假设像素与语义 token 之间存在隐式对齐，但实践中这种对齐并不容易实现。视觉细节与语义抽象之间的错位可能引发冲突的监督信号或不一致的表征，尤其在数据稀缺或噪声较多的训练环境中更为严重。

3.3 融合自回归与扩散模型

融合自回归（Autoregressive, AR）与扩散建模的框架近期已成为统一视觉-语言生成的一种强大范式。在该范式中，文本 token 以自回归方式生成，保留了大型语言模型在组合式推理方面的优势；而图像 token 则通过多步去噪过程生成，遵循扩散建模的基本原理。这种混合策略使图像生成无需按序列顺序进行，从而提升了视觉质量和全局一致性。

代表性模型如 Transfusion [38]、Show-o [39]、MonoFormer [37] 和 LMFusion[188] 均采用这一方法。在生成过程中，噪声被添加到潜在视觉表征中，并通过迭代方式逐步去除，该过程以先前生成的文本或完整的跨模态上下文为条件。尽管由于多步采样导致推理成本增加，但该设计在符号控制能力与视觉保真度之间实现了有效权衡，特别适用于高质量的视觉-语言生成任务。

现有的融合 AR + 扩散模型通常采用两种图像分词策略之一：基于像素的编码（pixel-based encoding）和混合编码（hybrid encoding）。

1）基于像素的编码如图 5(c-1) 所示，基于像素的编码将图像转换为离散 token 或连续潜在向量，随后在扩散去噪过程中将其作为目标，条件为自回归生成的文本 token。在近期工作中，Transfusion [38]、MonoFormer [37] 和 LMFusion [188] 均采用通过 SD-VAE 提取的连续潜在表示。这些模型共享一个联合训练目标：对语言建模使用自回归损失，对图像重建使用扩散损失，并利用双向注意力机制以实现空间一致性。

尽管框架相似，各模型引入了不同的架构创新：

Transfusion [38] 提出一个统一的 Transformer 主干网络，包含模态特定层，以联合处理离散与连续输入；
MonoFormer [37] 设计了一种紧凑架构，通过共享模块和任务依赖的注意力掩码，在 AR 与扩散任务之间取得平衡；
LMFusion [188] 通过一个轻量级视觉注入模块，使冻结的 LLM 能够执行高质量图像生成，在仅训练视觉分支的同时保留语言能力。

相比之下，Show-o [39] 采用基于 MAGVIT-v2 [213] 的离散像素级分词器，生成与 Transformer 风格解码兼容的符号化图像 token。它同时支持基于 AR 的文本 token 生成和基于扩散的图像合成，并通过自回归损失与扩散损失的组合进行监督。

总体而言，这些模型证明了基于像素的编码在平衡语言模型提供的语义可控性与扩散过程带来的高分辨率视觉保真度方面的有效性。

然而，融合 AR 与扩散框架中的基于像素编码方法也面临若干局限：第一，依赖连续潜在空间（如通过 SD-VAE）的模型在训练和推理阶段会带来显著计算开销，原因在于扩散采样的迭代特性以及高维特征处理需求。当扩展至高分辨率图像生成或多轮视觉-语言交互时，这一负担尤为突出。第二，文本与视觉模态之间的对齐仍具挑战性。尽管双向注意力机制支持跨模态融合，但潜在空间表征——尤其是通过 SD-VAE 中无监督重建目标学习得到的——未必能与语义丰富的语言 token 最优对齐，可能导致细粒度可控性较弱或生成结果可解释性不足。第三，如 Show-o 所采用的离散分词方案，继承了 VQ 类模型的问题，例如码本坍塌（codebook collapse）和对细微视觉差异的表达能力有限。这类符号化 token 虽与 Transformer 建模兼容，但可能限制视觉多样性，并在重建保真度上逊于连续潜在方法。

2）混合编码如图 5(c-2) 所示，混合编码融合了语义特征（如来自 CLIP 或 ViT 编码器）与像素级潜在表示（如来自 SD-VAE），提供更具表达力的图像表征。该方法使模型既能利用高层语义抽象，又能保留细节视觉信息。

具体而言，Janus-flow [189]、Mogao [190] 和 BAGEL [191] 采用双编码器架构，并提出一种极简设计，将 AR 语言模型与校正流（rectified flow）相协调。它们将理解与生成编码器解耦：

在多模态理解任务中，使用 SigLIP 或 SigLIP 与 SDXL-VAE 的拼接作为视觉编码器；
在图像生成任务中，则使用 SDXL-VAE 或 FLUX-VAE。

然而，这种伪混合编码（pseudo hybrid encoding）设计在图像合成过程中仅激活像素编码器，限制了模型在生成阶段同时利用语义与像素级特征的能力。尽管这种解耦有利于模块化和训练效率，但阻碍了模型在图像解码过程中充分利用语义线索，可能削弱生成任务中的细粒度对齐与多模态组合能力。

尽管已有进展，混合编码方法仍面临若干挑战：

双编码器架构与 AR/扩散过程的结合增加了模型整体复杂度，导致更高的计算成本和更长的训练时间，相比更简单模型效率较低；
确保语义特征与像素级特征的有效对齐需要精心的架构设计与优化，而这一对齐过程难以实现和微调，限制了模型在两类模态间均衡利用的能力；
在统一模型中平衡视觉-语言理解与图像生成的目标常导致权衡：一项任务的改进可能以牺牲另一项任务为代价。

这些局限凸显了对更高效混合设计的需求——既能更好发挥视觉与语义特征的优势，又能降低计算开销，并在各类任务中保持高性能。

3.4 任意到任意多模态模型

尽管早期的统一多模态模型主要聚焦于文本-图像对，近期研究已拓展至任意到任意（any-to-any）的多模态建模。这一雄心勃勃的方向旨在构建能够跨多种模态进行处理与生成的模型，涵盖音频、视频、语音、音乐乃至更多模态。这些模型力求在单一架构内统一各类模态专用的编码器与解码器，从而支持诸如文本到音频、视频到文本、语音到音乐，甚至图像到视频生成等多样化任务。本节回顾该新兴领域中的代表性工作，重点介绍其设计原则、模块化特性及当前局限。

大多数任意到任意模型采用模块化设计：每种模态配有一套专用的编码器和解码器，而一个共享主干网络负责跨模态表征学习与序列建模。例如，OmniFlow [199] 集成了 HiFiGen [232] 用于音频与音乐生成，SD-VAE [14] 用于图像处理，并以类 DiT 的扩散模型（MMDiT）[15] 作为主干网络。这种模块化设计使模型能高效组合不同模态，完成复杂的生成任务。

部分模型依赖共享嵌入空间，在特征层面统一不同模态。例如，Spider [198]、X-VILA [196] 和 Next-GPT [192] 利用 ImageBind——一种通过对比学习训练的模型，可将六种模态（文本、图像、视频、音频、深度图和热成像）映射到同一嵌入空间。这种统一表征通过模态特定解码器（如 Stable Diffusion [14]、Zeroscope 或基于 LLM 的文本解码器 [1]）实现灵活的条件控制与生成。尽管该方法在理论上简洁优雅，但其生成能力常受限于解码器质量与共享嵌入的粒度。

其他模型如 AnyGPT [195] 和 Unified-IO 2 [193] 则将序列到序列范式扩展至多模态场景：

AnyGPT [195] 使用 EnCodec [233] 进行音频分词，SpeechTokenizer [234] 处理语音，并训练一个带模态特定前缀的统一 Transformer；
Unified-IO 2 [193] 则采用更结构化的编码器-解码器设计，整合视觉、音频和语言模态，在单一模型中支持 AST 到文本、语音到图像、视频描述等任务。

近期值得关注的任意到任意统一多模态模型是 M2-omni [200]，它引入了一种高度通用的架构，能够处理并生成包括文本、图像、视频和音频在内的广泛模态。M2-omni 更进一步，集成了多个模态专用的分词器与解码器，每个组件均针对不同数据类型的独特特性精心设计：

使用 NaViT [235] 对任意分辨率的视频和图像进行编码；
结合预训练的 SD-3 [226] 作为图像解码器；
对音频，引入 paraformer-zh [236] 提取音频 token，并将预测的离散音频 token 输入预训练的 CosyVoice [237] 流匹配与声码器模型以生成音频流。

这种集成确保 M2-omni 能从多种输入有效生成高质量图像与音频流，使其成为真正意义上的多模态 powerhouse（全能模型）。

尽管进展显著，当前任意到任意模型仍面临若干挑战：

模态不平衡：文本和图像模态通常占据主导地位，而音频、视频、音乐等模态代表性不足，限制了模型可处理任务的多样性；
可扩展性问题：支持广泛模态会显著增加模型复杂度，导致推理延迟更高、资源需求更大；
跨模态语义一致性：确保不同模态间语义一致仍非易事，模型常难以维持有根据且对齐的输出。

这些挑战构成了任意到任意多模态模型研发中的持续研究方向。

尽管如此，这些模型代表了迈向通用基础模型的关键一步——此类模型有望理解并生成人类全部感官输入与交流形式的完整谱系。随着数据、架构与训练范式的不断演进，未来的任意到任意模型预计将更具组合性、效率更高，并真正实现通用的跨模态生成能力。

4 统一模型相关数据集

大规模、高质量且多样化的训练数据是构建强大统一多模态理解与生成模型的基石。这类模型通常需要在海量图像-文本对上进行预训练，以学习跨模态关联与表征。需要注意的是，在使用大规模多模态数据训练之前，这些模型通常会先用大型自然语言语料库（如 Common Crawl、RedPajama [291]、WebText [292] 等）进行初始化。由于本综述主要聚焦于多模态模型，本节将不讨论纯文本数据。

根据主要用途和模态特性，常见的多模态预训练数据集可大致分为以下几类：

多模态理解数据集
文本到图像生成数据集
图像编辑数据集
交错式图文数据集
以及其他支持以文本和图像为条件的图像生成任务的数据集

本节将围绕表 3 中列出的代表性数据集展开详细说明，重点介绍 2020 年及之后发布的重要资源。

4.1 多模态理解数据集

此类数据集主要用于训练模型的跨模态理解能力，支持图像描述生成、视觉问答（VQA）、图文检索、视觉定位等任务。它们通常包含大量图像及其对应的文本描述。

RedCaps [238]：该数据集包含从 Reddit 平台收集的 1200 万组图像-文本对，特别擅长捕捉社交媒体用户常分享的日常生活场景（如宠物、爱好、食物、休闲等）。
Wukong [239]：Wukong 是一个大规模中文多模态预训练数据集，包含从网络中筛选出的 1 亿组中文图像-文本对。其构建填补了高质量、大规模中文多模态预训练数据的空白，显著推动了面向中文场景的多模态模型发展。
LAION [240]：LAION（Large-scale Artificial Intelligence Open Network）项目提供了目前最大规模的公开图像-文本对数据集之一。例如，LAION-5B 包含近 60 亿组从网络爬取的图文对，并通过 CLIP 模型进行过滤以确保图文相关性。因其规模庞大、多样性丰富，LAION 已成为众多大型多模态模型预训练的基础。其子集 Laion-COCO [242] 包含 6 亿个高质量标注样本，旨在提供风格上更接近 MS COCO [293] 的大规模数据。
COYO [241]：COYO 是另一个大规模图像-文本对数据集，包含约 7.47 亿个样本，同样源自网络爬取并经过过滤处理，为社区提供了 LAION 之外的另一大规模预训练资源。
DataComp [243]：包含 14 亿个样本，源自 Common Crawl，通过精心设计的过滤策略（包括 CLIP 分数和基于图像的过滤）筛选，旨在提供比原始爬取数据质量更高的图文对。
ShareGPT4V [246]：提供约 10 万条高质量图像-文本对话数据，专为增强大模型的指令遵循与对话能力而设计，使其成为更优秀的多模态对话代理。
ALLaVA [216]：包含 140 万条合成数据，专为训练轻量级视觉-语言模型（LVLMs）而构建。其生成流程采用强闭源模型（如 GPT-4V）分阶段完成：首先从 LAION 和 Vision-FLAN 等来源选取图像；其次生成细粒度、详细的图像描述；最后构造复杂的推理型视觉问答对，强调包含证据和思维链的详细答案，以支持鲁棒的视觉指令微调。
CapsFusion-120M [245]：从 Laion-COCO [242] 中精选出的 1.2 亿组图像-文本对，其文本描述通过整合 Laion-COCO 原有标题与 CapsFusion-LLaMA [245] 生成内容获得。
Cambrian-10M(7M) [247]：Cambrian-10M 是一个用于多模态指令微调的大规模数据集，来源多样但类别分布不均衡。为提升数据质量，研究者基于优化后的数据比例进行过滤，最终形成 Cambrian-7M。
LLaVA-OneVision [248]：该视觉指令微调数据集包含两部分：一是 320 万条多样化的单图样本（涵盖 QA、OCR、数学等）；二是 OneVision 数据集，包含 160 万条混合模态样本（包括视频、多图及精选单图）。
Infinity-MM [248]：一个综合性多模态训练数据集，包含超过 4000 万条样本，通过广泛收集和分类现有开源数据集并结合新生成数据构建而成。内容包括图像描述、通用视觉指令、高质量精选指令，以及大量由 GPT-4 或定制 VLM 流水线生成的数据，以确保对齐性与多样性。所有数据均经过严格的质量控制与一致性过滤。
其他数据集：近期开发的其他理解类数据集还包括 GRIT（Grid-based Representation for Image-Text）[244]（2000 万样本，强调图像区域与文本短语的细粒度对齐）。此外，SAM 数据集 [251] 虽然最初并非图文对形式，但其包含 1100 万张高分辨率图像及精细分割掩码，提供了宝贵的空间与语义信息，可增强多模态模型对物体位置、边界或区域操作的理解能力。另外，文本到图像模型所用数据也可用于多模态理解任务。

4.2 文本到图像数据集

此类数据集主要用于训练根据文本描述生成图像的模型，通常包含图像-文本对，更强调图像的美学质量、内容丰富性或特定风格属性。

CC-12M（Conceptual Captions 12M） [250]：包含约 1200 万组从网页 Alt-text 中提取并过滤的图文对。相比原始网络爬取数据，其文本描述更简洁、更具描述性，被广泛用于文本到图像模型训练。
LAION-Aesthetics [240]：LAION 的一个子集，通过美学评分模型筛选出约 1.2 亿张被认为具有较高“美学价值”的图像及其对应文本。
文本渲染数据集：多个数据集专门用于解决生成图像中文本准确、清晰渲染的挑战：
- Mario-10M [252]：含 1000 万样本，用于训练 TextDiffuser 模型，旨在提升文本布局与可读性；
- RenderedText [253]：提供 1200 万张高分辨率手写文本合成图像，具有多样视觉属性，是手写文本理解与生成的重要资源；
- AnyWord-3M [255]：含 300 万样本，对 AnyText 等模型的训练至关重要，专注于提升生成文本质量；
- TextAtlas5M [265]：面向密集文本生成，融合交错文档、合成数据及带长描述和人工标注的真实图像，以应对复杂文本密集型图像场景。
JourneyDB [254]：包含 400 万组由 Midjourney 平台生成的高质量图像-提示对。由于 Midjourney 以生成创意性和艺术性强的图像著称，该数据集为训练模型学习复杂、细致且具艺术风格的文本到图像映射提供了宝贵资源。
CosmicMan-HQ 1.0 [256]：包含 600 万张高分辨率真实人像（平均分辨率达 1488 × 1255 像素），其文本标注极为精确，源自 1.15 亿个不同粒度的属性，可用于提升人像生成能力。
DOCCI [257]：提供 1.5 万张精心策划的图像，每张配有由人工撰写的长英文描述（平均 136 词），内容高度细致，旨在区分相似图像。该数据集聚焦细粒度描述与对比图像集，是训练和评估图文互生模型处理微妙细节与复杂构图能力的重要资源。
PixelProse [258]：从 DataComp [243]、CC-12M [250] 和 RedCaps [238] 中提取，包含丰富标注的图像及其文本描述，并提供水印存在性、美学评分等元数据，可用于过滤以获取目标图像。
Megalith [260]：包含约 1000 万条 Flickr 上标记为“photo”且无版权限制的图像链接，其社区生成的文本描述由 ShareCaptioner [246]、Florence2 [294] 和 InternVL2 [11], [66] 等模型生成，并已公开。
PD12M [262]：包含 1240 万张公共领域（CC0 许可）高分辨率图像，配以 Florence-2-large [294] 生成的合成描述，专为文本到图像模型训练设计，在规避版权问题的同时提供大规模数据。
合成数据集：越来越多的文本到图像专用数据集通过现有生成模型构建：
- text-to-image-2M [261]：提供 200 万组经高级 T2I 与描述模型精选的增强图文对，用于微调；
- SFHQ-T2I [263]：提供 12.2 万张由多个 T2I 模型生成的多样化高分辨率合成人脸图像，确保多样性与隐私保护；
- EliGen TrainSet [264]：使用基线模型（FLUX.1-dev）生成图像，并结合 MLLM 生成的提示，以保证风格一致性和详细标注，用于实体控制；
- BLIP-3o 60k [169]：提供 6 万条从 GPT-4o 蒸馏出的指令微调样本，覆盖多类别以支持多样化训练；
- ShareGPT4o-Image [266]：贡献 4.5 万组文本到图像对，其提示通过“属性优先”和“图像优先”两种结构化方法生成，对应图像由 GPT-4o 的图像生成能力合成，以蒸馏其先进技能；
- Echo-4o-Image [267]：提供超 10 万条样本，专门针对现实数据中的盲区，如超现实幻想场景和复杂长尾指令，以增强模型想象力与对齐能力。