扩散模型进军专业图层，斯坦福提出LayerDiffuse实现分层扩散，效果直逼商业网站|扩散模型|斯坦福|视频生成模型

大数据文摘受权转载自将门创投

目前，视觉扩散生成模型（如Stable Diffusion等）在常规图像生成任务上获得了非常好的效果，但是在内容制作的专业领域，例如对图像进行透明分层制作，现有的方法仍然缺乏这种功能。本文介绍一篇来自斯坦福大学的工作，本文提出了一种名为LayerDiffuse的新型扩散方法，LayerDiffuse允许我们大规模预训练扩散模型来生成专业的透明图层。

本文探索了一种“latent transparency”（隐透明度）的概念，通过将alpha通道的透明度编码到预训练扩散模型的隐空间流形中，并将对透明度的调节设置为对隐空间流形的偏移量。LayerDiffuse仅对基础预训练隐空间的分布进行了微小的修改，这样可以保留预训练扩散隐空间的图像生成质量。作者表示，LayerDiffuse可以应用在多种不同的开源图像生成模型中，来实现图像前景/背景条件层生成、结构引导生成等复杂的功能。

此外，本文的实验结果也表明，相比普通做法（先生成图像再抠图），LayerDiffuse直接生成的透明图层图像在大多数情况下（97%）更受用户欢迎。并且作者还将LayerDiffuse与专业的商业透明资源网站Adobe Stock相比，本文方法生成的图像也具有一定的竞争力。

论文题目： Transparent Image Layer Diffusion using Latent Transparency 论文链接： https://arxiv.org/abs/2402.17113 代码仓库： https://github.com/layerdiffusion/LayerDiffuse

一、引言

目前，绝大多数图像内容编辑软件和工作流程都基于图层进行设计，但现有的图像生成大模型仍然不具备这方面的能力，这一现象与庞大的市场需求形成了鲜明的对比。本文提出的LayerDiffuse应运而生，本文作者了解到，制作可以训练图层生成模型的数据集成本非常高昂，互联网上的高质量透明图像元素往往都有很高的下载费用，这不像普通的配对文本图像数据集（例如LAION）那样好获取。

此外，对于大多数开源的图像生成模型，例如Stable Diffusion。即使仅用少量的训练数据对其微调，也会对其潜在空间带来巨大的偏差，从而严重降低微调性能。为此，本文作者提出了一种latent transparency（潜在透明度）方法，可以将图像透明度编码为潜在偏移量，该偏移量经过明确调节可以防止对已有扩散模型的潜在分布造成破坏。LayerDiffuse的生成效果如上图所示，用户可以通过输入文本来生成图像，并且实现前景和背景的分离。

为了降低LayerDiffuse的整体质量和训练成本，作者还引入了共享注意力机制来确保图像层之间的一致性，并且使用LoRA框架对模型进行训练。值得一提的是，本文的两位作者Lvmin Zhang和Maneesh Agrawala同样也是ICCV 2023最佳论文《ControlNet》的作者，在图像生成领域有着丰富的经验。

二、本文方法

LayerDiffuse的核心思路是在已有预训练扩散模型的基础上，进一步扩展模型以同时生成多个透明层，整体框架如下图所示，作者将前三个RGB色彩通道图像定义为，将alpha通道定义为，要生成的透明RGBA图像定义为。其中可以被转换为“premultiplied image”：。最后模型的生成解码器可以根据premultiplied image来将图像的透明通道和RGB色彩通道分离开来实现图层分层效果。

2.1 潜在透明度（latent transparency）

latent transparency是本文新提出的一个概念，它可以应用在预训练的扩散模型中，例如Stable Diffusion。这类模型通常使用一个latent编码器（VAE）来将RGB图像转换为latent向量，然后再将其输入扩散模型中进行生成。为了加入latent transparency，必须保证尽可能的保留原有扩散模型的latent空间分布。具体来说，给定图像、预训练且冻结参数的扩散编码器和解码器，假设透明偏移量为，经过修改后的图像特征为，我们可以直接测量透明偏移量的大小：

直观上，如果相对较高，则可能是有害的，并且会破坏扩散模型编码器-解码器的重建功能。相反则表明偏移量的加入不会影响扩散模型原有的生成效果。因而作者将作为一个新的条件参数，并从头训练一个latent transparency编码器，同时将RGB通道和alpha通道作为输入，将像素空间透明度转换为latent偏移量: 。随后训练可以理解透明图层的扩散解码器以实现，其中分别表示重构得到的RGB图层和alpha图层。

作者通过联合执行L2重构损失和PatchGAN判别损失来优化加入latent transparency后的扩散模型编码器和解码器。

2.2 加入latent transparency的扩散过程

LayerDiffuse的扩散过程首先从透明图像出发，并且可以在已有的潜在空间上进行明确微调。在给定透明调整偏移量后，扩散算法逐渐向透明图像添加噪声并生成噪声图像，其中表示添加噪声的次数，当足够大时，图像会近似于纯噪声。此时将扩散步骤和文本提示作为联合条件输入到扩散模型中进行生成，网络根据已有图像预测得到添加到透明图像上的噪声，优化损失函数可以表示如下：

网络的训练过程如下图所示，其中Stable Diffusion模型在这一过程中参数可以进行更新。

2.3 实现图层之间的扩散

在扩散模型具有理解latent transparency概念之后，就可以实现图层之间的分层扩散。作者使用注意力共享机制和低秩LoRA策略将基础模型扩展为多层模型，如下图所示。

这里将图像分为前景层和背景层，前景的潜在表示向量为，背景潜在表示向量为，并设置两套LoRA参数对潜在图像实现去噪，去噪扩散目标可以表示为：

其中分别表示添加在前景和背景中的潜在噪声，由于共享注意力注意力机制的存在，模型可以对前景和背景的扩散过程进行同时优化，对于其中的每个注意力层，作者将前景和背景图像激活的所有拼接起来，将前景和背景的模型参数合并得到一个可以联合优化的大模型，优化目标函数可以表示如下：

此外，还可以对上述目标函数进行简单的修改来实现一些进阶的条件生成，例如将设置为0就可以将整体框架变为前景条件生成器，此时模型仅对前景进行调整。相反也可以将设置为0，此时模型仅对背景进行调整，这方便用户对不同图层进行个性化的调整。

2.4 数据集准备和模型训练

本文使用了基于人机交互的方法来收集透明图像数据集进行训练，该数据集的初始版本是从在线图像库购买和免费下载的 20k 个高质量透明 PNG 图像。首先使用初始数据集微调SDXL扩散模型使其具有理解latent transparency的能力。随后使用该模型根据随机文本提示进行图像生成，生成结束后，人工挑选其中的1000个样本添加回训练数据集，并使用LAION美学阈值[2]进行筛选，重复执行25轮以增加样本数量，对于每个生成图像，作者还使用开源的多模态大模型LLaVA[3]生成图像caption来作为文本提示。

随后作者开始构建多图层训练数据集，如上图（b）所示，数据集格式从上一步的{文本，透明图像}扩展为{文本，前景层，背景层}，作者首先使用ChatGPT和LLaMA模型对给定图像的前景和背景生成结构化的提示对，例如上图左侧的前景提示为“一只可爱的猫”，中间的整体图像提示为“花园里的猫”，右侧的背景提示为“花园里什么都没有”。在得到提示后，可以使用上一步训练好的透明扩散模型分别生成前景和背景图层。本文的训练设备为4xA100（80G NV-link），整体的训练时间为一周。

三、实验效果

下图展示了本文方法的扩散生成效果，LayerDiffuse模型实现了近乎完美的透明图像感知效果，包括高质量的玻璃透明度、头发、毛皮和半透明效果，如发光、火焰、魔法效果等，同时具有泛化到不同场景不同主题中的能力。

此外，作者还展示了LayerDiffuse的前景和背景条件生成效果，如下图所示，模型能够生成具有几何对称和光线一致的前背景构图。以下图第二行中的“教堂中的灯泡”为例，模型具有基础的对称审美特点。第一行的“坐在长凳上”的例子也表明，LayerDiffuse能够推断出前景和背景之间的相互作用，从而提高图像的层次感。

除了可视化效果，作者还从视觉感知层面对本文方法进行了评估，作者设置了一个完善的用户评估方法，具体来说，用户评估共有14人参与，其中11人为网络众包工作者，1人为计算机专业学生，2人为专业内容创作者。作者将LayerDiffuse与SD+方法（SD+表示先使用Stable Diffusion生成RGB图像，然后进行抠图）进行对比，用户需要对100个图像样本进行主观偏好打分，随后计算平均偏好率进行对比，结果如下表group1所示，可以看到，LayerDiffuse在97%的情况下均优于其他方法。

此外，作者还进行了一个group2实验，使用与group1相同的评价指标，但是对比样本是从商业网站Adobe Stock上下载得到的，从上表的对比结果可以看出，本文方法的用户偏好率非常接近于商业网站（45.3％vs.54.7％）。

四、总结

本文在现有扩散模型的基础上引入了一种全新的概念，称为“潜在透明度”（latent transparency），其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现，保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法，提高了整体的训练效率。

参考

[1] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.

[2] C. Schuhmann, R. Beaumont, R. Vencu, C. W. Gordon, R. Wightman, and J. Jitsev. LAION-5b: An open large-scale dataset for training next generation image-text models. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2022.

[3] H. Liu, C. Li, Q. Wu, and Y. J. Lee. Visual instruction tuning. In NeurIPS, 2023.

Illustration From IconScout By Delesign Graphics

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝