图像生成新范式！MIGE多模态指令统一框架，超越OmniGen|图像生成|多模态指令|编码器

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel社区上线，最新上线4090资源不限量，价格实惠，灵活方便，支持在线微调训练模型，及和，并。

扩散模型的最新进展极大推动了个性化图像生成技术发展。在这一领域，传统方法通常将主体驱动图像生成和基于指令的图像编辑这两类任务分开处理，不仅面临高质量数据匮乏问题，还存在泛化能力不足的情况，难以同时保持主体一致性和指令遵循能力。

研究团队提出了 MIGE ，一个统一了主体驱动可控生成和基于指令编辑的图像生成框架。 MIGE 通过利用多模态指令和条件输入，实现了两种任务的联合训练，从而增强任务协同效应并缓解数据稀缺问题。联合训练还解锁了新的能力，例如基于指令的主体驱动图像编辑。

这一新任务还构建了数据生成流程，并提出了用于评估的 MIGEBench 。实验结果表明，联合训练显著提升了主体保真度和指令遵循能力，证明了任务统一带来的优势。这一整合方式增强了可控性，并为未来的多模态图像生成与编辑提供了新的发展方向。现已上线始智AI-wisemodel开源社区，欢迎前去体验。

模型和数据集地址

https://wisemodel.cn/models/EurekaTian/MIGE

https://wisemodel.cn/datasets/EurekaTian/MIGEBench

01.

方法与模型

1.1.任务统一

现有方法通常将主体驱动的生成和基于指令的图像编辑视为两个独立任务，受限于数据稀缺和泛化能力不足，影响了整体性能。事实上，这两类任务的核心目标都是在保持视觉一致性的同时，实现指令要求的修改。

因此，统一这两类任务可以实现相互增强。联合训练多样化的数据不仅提升了主体保持能力，也增强了指令遵循性，超越了单一任务模型的表现。

研究团队提出了 MIGE，通过多模态指令作为统一的任务表示，实现主体驱动生成与指令编辑的融合。该方法支持灵活的任务组合，并提供多模态指导。

此外，研究团队引入条件输入来结构化地统一任务，从而提升视觉一致性。这种结合方式不仅提供了丰富的视觉和指令信息，还能自然地表示不同类型的任务。

图2 MIGE 作为统一框架，能够处理多模态指令和条件输入，适用于多种任务和场景。

（1）统一的多模态指令：为了实现跨多个任务的联合训练，建立统一的任务表示至关重要。我们引入了一种由交错排列的图像和文本组成的多模态指令，既提供了视觉参考，也包含了文本指导，从而支持多种可控的生成任务。

如图 2 所示，“ ”作为占位符，可以依次替换为输入图像，这些图像既可以是参考主体，也可以是整个场景，从而与文本语义相结合，形成交错表达。这种统一的方式不仅适用于主体驱动的生成和基于指令的编辑，还能够扩展到更复杂的组合任务。

（2）统一的条件输入：我们采用条件输入设计来在结构上统一任务，既确保了任务区分的清晰性，又能实现共享能力。通过拼接不同的条件输入，我们可以区分不同的初始生成状态，并捕捉任务特定的细微差异，从而提高执行的准确性。

如图 2 所示，在基于指令的编辑任务中，我们将 VAE 编码后的源图像与噪声张量拼接，以指导模型在给定图像的基础上进行编辑。而在主体驱动的生成任务中，我们使用全零张量作为输入，相当于一块空白画布，引导模型自由生成，同时保持指定的视觉特征。

这种设计能够有效地区分两个任务，同时保证编辑任务中的输入输出一致性。此外，在统一框架内对任务进行结构化建模，使得模型能够共享能力，并轻松扩展到新的任务。

2）模型架构

如图 3 所示，MIGE 的架构由两个主要组件组成：多模态编码器（用于处理多模态指令）和基于 Transformer 的扩散模型（用于建模输入与输出的关系）。扩散模型将潜在空间的噪声与条件输入沿通道维度进行拼接作为输入，并在多模态条件的控制下进行可控生成。

为了进一步增强参考图像中视觉信息与语义信息的融合，我们在编码器中引入了一种新的特征融合机制。

（1）多模态编码器

为了将多模态指令映射到统一的视觉-语言语义空间，我们设计了一种多模态编码器，其主要由大语言模型（LLM）和图像特征编码组件组成。

图像特征编码组件包括：预训练的 VAE 编码器（用于提取视觉特征）、来自 EVA-CLIP 的预训练 ViT（用于提取语义特征）、Q-Former 和一个线性投影层。每张图像被表示为 32 个标记，这些图像标记与文本标记一起输入 LLM ，作为统一的多模态条件。

与以往方法主要侧重于提取参考图像的语义特征不同，这些方法往往缺乏保留主体细节的能力。为了解决这一问题，我们提出了一种特征融合机制，结合不同视觉编码器的优势：ViT 作为语义特征提取器，VAE 编码器作为视觉特征提取器，利用其图像压缩与重建能力。

如图 3 所示，我们使用 Q-Former 压缩的 CLIP 语义特征作为引导，自适应地融合VAE 提取的视觉特征。

通过这一融合机制，我们可以在不增加额外图像标记的情况下，同时捕捉参考图像的视觉信息和语义信息，从而提升模型的主体保持能力和生成质量。

图 3 MIGE 的整体框架由两个主要组件组成：多模态编码器用于处理多模态指令，基于 Transformer 的扩散模型用于建模输入与输出的关系。编码器引入了一种特征融合机制，以整合参考图像的视觉与语义特征。

3）联合训练

多模态指令和条件输入统一了任务表示和输入输出格式，从而实现联合训练。我们在所有任务的数据上对 MIGE 进行微调，以增强任务间的协同作用。

除了两个图像编码器外，所有参数均参与联合训练，以对齐扩散模型的条件空间与多模态编码器，如图 3 所示。这种方法提高了任务之间的协调性，并增强了跨模态的一致性。

联合训练能够促进多任务学习，平衡主体保持与指令控制，同时建模任务之间的关系。为此，我们构建了一个多任务数据集，用于多模态指令微调，涵盖以下三类任务：主体驱动的图像生成、基于指令的图像编辑，基于指令的主体驱动图像生成。

图 4 用于基于指令的主体驱动图像编辑的数据构建流程。

在主体驱动的图像生成任务中，我们参考 KOSMOS-G 和 UNIMO-G 的数据构建方法，利用 LLM 从图片描述中提取实体信息，并输入 Grounded SAM 进行目标分割。

此外，我们还引入了 OmniControl 的 Subjects200k 数据集，以提升对目标主体的保持能力。

在基于指令的图像编辑任务中，我们从现有数据集中筛选高质量样本，并采用基于规则的方法构造多模态指令数据。

基于指令的主体驱动图像生成是一个新兴任务，包括两个子任务：基于指令的主体添加和主体替换。这一任务允许用户通过多模态指令，在图像中添加或替换指定主体。然而，目前尚无足够规模的公开数据集可用于该任务。

为了构建基于指令的主体驱动的添加任务数据，我们提出了一条受 SAM-FB 启发的数据构建流程，如图 4a 所示。具体步骤如下：

1.以 SA-1B 数据集为基础，构造输入-输出样本。

2.使用 SAM 进行目标分割，并利用 MLLM 过滤并保留主要主体。

3.对去除主体后的区域进行背景修复，确保完整的背景信息。

4.结合主体名称与目标图像，使用 GPT-4o 生成多模态指令。

由于资源限制，我们仅处理了 SA-1B 数据集的一部分，共获得约 20 万个样本，但该流程可扩展以生成更多数据。

对于主体替换任务，我们从现有编辑数据集中筛选样本，使用 Grounded SAM 获取主体分割结果，并构造多模态指令，以形成输入-输出对，如图 4b 所示。此外，我们引入了基于 IDM-VTON 生成的虚拟试衣（Virtual Try-on）数据，共计约 11 万个样本。

02.

实验与结果

1）实现细节

MIGE 由条件扩散模型和多模态编码器组成。我们的设计支持灵活选择不同的扩散模型，初始模型采用在512×512分辨率上预训练的PIXART-α。用于处理条件输入的参数初始化为零，而模型的原始权重保持不变。

多模态编码器由预训练的 Flan-T5-XXL作为 LLM 进行初始化，并包含一个图像编码组件。该组件包括查询标记、Q-Former 和投影层，其初始化基于BLIP-2的pretrain_flant5xxl检查点。

视觉特征提取器采用冻结的VAE 编码器，与扩散模型中的 VAE 一致。此外，在特征融合机制中引入了一个零初始化的 MLP 层，用于逐步融合视觉特征。

MIGE 在多任务数据集上进行训练，优化器采用AdamW，权重衰减设为0.03，学习率设为1e-5。训练过程持续18 轮，使用48 张 H20 GPU，总计6 天，批量大小为960（每张 GPU 处理 20 个样本）。

在训练过程中，对主体添加和主体替换任务采用1:1 采样策略。此外，在训练时，模型以5% 的概率随机丢弃条件输入或多模态条件，并有额外 5% 的概率同时丢弃两者，以支持推理阶段的无分类器引导（classifier-free guidance）。

2）评估结果

作为一个统一模型， MIGE 在各类图像生成和编辑任务中表现出色，优于现有的特定任务模型。本节重点展示其在主体驱动图像生成和基于指令的编辑任务中的强大性能，并在我们新的基准上展现其在基于指令的主体驱动图像生成任务中的新兴能力。更多定性比较结果参考图9。

图 5 主体驱动的图像生成（顶部行）和基于指令的图像编辑（底部行）的定性比较。我们分别在这两个任务上比较了通用模型和特定任务模型。图中列出的提示词用于 MIGE 进行生成，并根据每个模型的使用方式进行调整。

（1）主体驱动的图像生成（subuject-driven image generation）

从多模态提示中生成同时满足图像和文本约束的图像是一个具有挑战性的任务。我们将MIGE 与两种同样使用 MLLM 进行多模态条件编码的特定任务方法，以及两种通用模型进行比较，如表 1 所示。我们使用 DINO 和 CLIP-I 评估主体保真度，并使用 CLIP-T 评估对多模态指令的遵循情况。

在 DreamBench 上的实验结果表明，MIGE 在保持竞争性文本一致性的同时，更好地保留了主体特征，尤其在 DINO 评价指标上表现优异。

图 5 中的定性比较进一步证明，MIGE 不仅在单主体生成任务上表现更好，而且在多主体生成任务中能够保留每个主体的独特特征，而其他模型要么未能保留所有主体，要么丢失了个体特征。

这一优势得益于 MIGE 能够灵活地在多模态指令中结合多个参考实体，并通过其特征融合机制整合额外的视觉特征。

表 1 DreamBench 上主体驱动图像生成的定量结果。MIGE 在主体保持方面优于通用模型，并且在与针对该任务设计的模型的比较中保持竞争力。

（2）基于指令的图像编辑（Instruction-based Image Editing）

基于指令的图像编辑使用户能够根据自由形式的多模态指令修改源图像，包括添加、移除、修改对象属性或改变整体风格。表2展示了对Emu Edit 和MagicBrush 测试集的定量分析。

DINO和CLIP-I评估与源图像的相似度，而CLIP-T衡量与目标描述的一致性。量化文本和图像CLIP向量变化之间的一致性，而L1和L2捕捉像素级差异。

如表2所示，MIGE取得了最高的CLIP-T分数，并且在指标上超越了所有特定任务模型，这表明它在有效遵循多模态指令方面具有卓越的能力。

作为一个通用模型，MIGE在MagicBrush测试集的所有指标上都优于其他所有通用模型，取得了最低的L1和L2分数以及最高的CLIP-I、DINO和CLIP-T分数，凸显了其强大的指令保真度和对细节的保留能力。

图5进一步展示了这种能力，在图5中，MIGE是唯一能够准确遵循指令在红色手提箱上添加达菲鸭图像且不改变其他无关区域的模型。

表 2 Emu Edit 测试集和 MagicBrush 测试集的基于指令的图像编辑定量结果。MIGE 在 MagicBrush 测试集表现最佳，在通用模型具有较强的指令遵循性和细节保留能力。

（3）基于指令的主体驱动图像编辑（Instruction-based Subject-driven Image Editing）

Benchmark 构建：基于指令的主体驱动图像编辑是一项新颖的任务。现有方法依赖于掩码或位置坐标进行编辑，但不支持基于指令的编辑。目前的基准主要针对主体添加和替换任务，分别评估前景和背景的相似性，但未提供完整编辑后的图像作为标准答案，因此不适用于该任务。

为解决这些问题，我们构建了一个包含 1,000 个测试样本的基准数据集，其中 500 个用于基于指令的主体添加，500 个用于主体替换。

数据来源于 SEED-Data-Edit，主体由 Grounded SAM提取。目标图像的描述由 GPT-4o 生成，并经过人工审核优化。为了与现有方法兼容，我们的基准数据集还包含掩码。

图 6 MIGEBench中主体添加的例子

图 7 MIGEBench中主体替换的例子

评估结果：评估重点关注编辑能力和主体保持能力。编辑能力使用 DINO、CLIP-I 和 CLIP-T 进行评估，其中 DINO 和 CLIP-I 衡量编辑结果与标准答案图像的相似度，CLIP-T 评估编辑后图像与目标描述的匹配度。

主体保持能力的评估方式是利用 Grounded SAM 提取编辑后的主体，并使用 DINO 和 CLIP-I 将其与输入主体图像进行比对。这种评估方式将图像级编辑能力与主体级特征保持能力分开衡量。

表 3 基于指令的主体驱动编辑的量化结果。在表格中，“Instruction”列中标有叉号的方法使用掩码进行编辑，而其他方法则基于多模态指令生成图像。总体而言，MIGE 在两项任务中均显著优于其他方法，展现出卓越的编辑能力和主体保持能力。

对于不支持基于指令编辑的方法，我们在表格中用叉号标记，并在测试时使用掩码。表 3a 和 3b 展示了与其他方法的量化对比结果。

此外，我们计算了源图像与目标图像之间的 DINO 和 CLIP-I 指标，以及源图像与目标描述之间的 CLIP-T 指标，并在表格的第一行（标注为“source-target”）作为基线结果进行展示。

在编辑能力方面，MIGE 在所有指标上均取得最高的整体提升，证明了其在多模态指令引导的编辑任务中的有效性。如图 8 的定性对比所示，MIGE 能够正确理解指令中的“替换”含义，而不仅仅是将主体粘贴到图像上。

在主体保持能力方面，结果表明 MIGE 在两项任务中均实现了最佳表现，具体如图 8 所示。

图 8 主体添加和主体替换的定性结果。上半部分对比主体添加的结果，下半部分对比主体替换的结果。在测试过程中，多模态指令中的“ ”占位符会根据图像序列进行替换。MIGE 展现出高度的编辑灵活性，并在主体保持能力和输入-输出一致性方面表现出色。

3）消融实验

（1）联合训练的有效性

为了评估联合训练的有效性，我们分别在单个数据集上训练模型（分别标记为“only_subject data”，“only_edit data,”和“only_compositional data”），并将其性能与联合训练的模型进行对比。

表 1 和表 2 的结果显示，联合训练在所有指标上均带来了持续的提升，这表明主体驱动的生成与基于指令的编辑能够相互促进。进一步地，如表 3 所示，联合训练还提升了组合任务的性能，进一步凸显了其整体优势。这些结果强调了联合训练的有效性和必要性。

总的来说，在我们的统一框架下进行主体驱动生成与基于指令的编辑的联合训练，不仅增强了组合能力，还提升了每个单独任务的性能。

（2）特征融合的有效性

MIGE 在多模态编码器中采用特征融合机制，将 ViT 提取的语义特征与 VAE 提取的视觉特征进行融合。如表 1 和表 2 所示，与不使用 VAE 特征的模型（标记为“wo_VAE feature”）相比，加入 VAE 特征显著提升了参考图像的细节保留能力，对主体驱动的图像生成和基于指令的图像编辑均有所帮助。

这一点尤其体现在 CLIP-I 和 DINO 评分的提升，以及 L1 和 L2 指标的显著降低，表明额外的视觉特征有助于保持输入与输出的一致性。

（3）基于指令的主体驱动图像编辑数据的有效性

在主体驱动的图像生成和基于指令的图像编辑任务上进行联合训练，使模型能够泛化到基于指令的主体驱动图像编辑任务（标记为“subject data + edit data”）。

为了增强 MIGE 在这一新任务中的能力，特别是对空间术语和尺寸描述的理解，我们构建了一个专门的数据集用于联合训练。如表 3a 和表 3b 所示，该任务特定数据显著提升了模型的整体性能。这一结果证明了我们构建的数据集的有效性，同时所提出的数据生成流程也可作为未来数据集构建的重要参考。

（4）多模态指令的有效性

现有的基于指令的编辑方法通常使用纯文本指令作为条件输入，而我们将其扩展为多模态指令。为了衡量多模态指令的优势，我们训练了仅使用文本编辑指令的模型进行对比。如表 2 所示，相比于仅使用文本指令（标记为“wo_multimodal instruction”），采用多模态指令能够稳定提升模型性能，并增强输入输出的一致性及指令遵循能力。

在多任务训练中，多模态指令带来的显著提升体现在 L1 和 L2 指标的降低，表明其对图像的控制更加精细，编辑更准确。虽然文本指令能够提供必要的修改信息，但评分提升以及其他指标的降低表明，多模态指令引入视觉上下文，使修改更加精准且忠实于指令要求。

图 9 主体驱动图像生成（顶部）、基于指令的图像编辑（中部）和基于指令的主体驱动图像编辑（底部）的定性对比结果。

----- END -----

wisemodel相关：

系统升级：

大赛报名：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看