扩散模型中推理时间去偏概念|分类器|扩散模型|深度思考模型

扩散模型中推理时间去偏概念

Inference Time Debiasing Concepts in Diffusion Models

摘要

我们提出了 DeCoDi，一种针对文本到图像扩散模型的去偏方法。该方法仅修改推理过程，不会显著影响图像质量，计算开销可忽略不计，并且可应用于任何基于扩散的图像生成模型。DeCoDi 通过调整扩散过程，避开与偏见概念相关的潜在空间维度区域。尽管大多数深度学习去偏方法需要复杂或计算密集型的干预措施，我们的方法仅改变推理过程，因此对广大从业者而言更具可及性。我们通过在“护士”、“消防员”和“CEO”等概念上对性别、种族和年龄进行去偏，验证了该方法的有效性。两名独立的人类评估员人工检查了1200张生成的图像。他们的评估结果表明，我们的方法在缓解基于性别、种族和年龄的偏见方面是有效的。我们还证明，由 GPT-4o 执行的自动偏见评估结果与人类评估在统计上并无显著差异。我们的评估显示出令人鼓舞的结果：评估员之间具有可靠的一致性，并且覆盖了更多受保护属性。该方法有望显著提升基于扩散的文本到图像生成模型所生成图像的多样性。

关键词：公平性 · 偏见 · 扩散模型 · 生成模型

1 引言

人工智能模型（尤其是深度学习模型）中的公平性是一个紧迫的社会问题[2]。随着人工智能系统越来越多地嵌入医疗[14]和招聘[17]等高风险决策领域，存在偏见的模型可能会加剧社会不平等并强化现有差距。文本到图像合成系统通常会反映其训练数据中存在的偏见，从而产生有偏差甚至有害的输出[20]。解决公平性问题既是一项技术挑战，也是一项道德义务，因为它直接影响我们所部署的人工智能技术的包容性和伦理意识。

一段时间以来，人们提出了许多用于评估公平性并缓解偏见的技术。每种技术都有其复杂性，并可应用于模型生命周期的不同阶段，从数据集收集一直到推理阶段[13]。大多数去偏技术依赖于对模型生命周期中计算密集型阶段进行修改，例如数据集的获取与整理，或预训练过程[15]。然而，计算资源的缺乏往往使得对数据分布和模型预训练的修改难以实现，因此大多数研究人员和从业者通常只能采用微调（fine-tuning）或在模型推理阶段进行修改[3, 21]。这意味着，由于额外的计算需求，大多数去偏技术无法被更广泛的用户群体所使用。

在公平性研究方面，文本到图像模型是研究最少的模型之一[1]。目前尚不清楚为何文本到图像模型的去偏方法较少，但可以明确的是，这类模型对数据集规模和计算资源的需求可能会带来公平性方面的负面影响[4]。我们推测，图像生成模型在公平性方面研究成果匮乏的原因在于，诸如人口统计均等（demographic parity）和机会均等（equality of opportunity）等公平性指标和定义，在计算机视觉（CV）或自然语言处理（NLP）等具有标注数据集（其中目标变量和受保护属性均有明确标注值）的监督任务中更容易直接应用。

现有的偏见缓解策略在文本到图像模型的公平性问题上主要存在两个方面的不足：其一，这些策略计算开销大，聚焦于训练过程或数据分布的修改，因此难以被广大用户使用；其二，它们完全忽略了文本到图像模型，仅关注CV或NLP中的监督任务——这一点在先前文献综述中提到的去偏方法中显而易见[15, 13]。

就文本到图像生成模型的图像质量和多样性而言，基于扩散过程的架构表现卓越[23]。在扩散模型中，我们可以特别指出SDXL模型[16]。在该模型中，一个固定的编码器在训练集中对图像逐步添加噪声，而一个参数化的解码器则被训练用于逐步去除每一步的噪声。在推理阶段，编码器被弃用，解码器则用于从与噪声相同分布中采样的图像出发，逐步去噪。与大多数深度学习模型一样，训练阶段的计算需求远高于推理阶段。

我们提出了DeCoDi——一种应用于推理阶段的文本到图像合成模型去偏方法，适用于无分类器引导（classifier-free guided）的扩散模型。根据Parraga等人（2023）[15]提出的分类法，DeCoDi属于一种“推理阶段向量空间操作”（Inferential Vector-Space Manipulation）类的去偏方法。DeCoDi通过修改扩散过程，在推理阶段避开偏见概念。该方法的优势在于：可在模型推理过程中实现去偏，不会造成图像质量的视觉退化，且几乎不增加额外的计算开销。

我们通过向两名独立的人类评估员随机展示1200张生成的护士、消防员和CEO图像来评估我们的方法。每位评估员对每张图像就性别、年龄和种族这三个受保护属性进行标注。我们通过实证表明，不同评估员显著一致地认为，我们的方法在保持图像质量的同时，生成了更多样化的图像集合。我们还使用GPT-4o模型作为第三位评估员，并证明在所有测试场景中，GPT-4o的评估结果与每位人类评估员的评估结果在统计上均无显著差异。

在接下来的章节中，我们首先简要介绍扩散模型中的公平性背景，然后详细说明DeCoDi方法及评估流程，最后展示我们去偏方法的结果并进行讨论。

2 相关工作
众所周知，文本到图像模型在许多受保护属性（如性别、年龄和种族）方面通常存在偏见。Cho 等人[6]的研究对 DALL·E 2 和 Stable Diffusion 在性别和肤色这两个受保护属性上的表现进行了评估，发现这两个模型在上述两个概念上均存在偏见。尽管 Cho 等人同时使用了人工评估和模型评估来定义生成图像中的受保护属性，但他们的目标并非评估某种去偏方法，而仅是衡量模型本身的偏见程度。此外，他们也未对不同评估者与模型之间评估结果的一致性进行统计显著性检验。

在扩散模型引导方面的突出成果中，我们特别指出“安全潜在扩散”（Safe Latent Diffusion）过程[18]。该研究提出了一种通过同时依据文本输入和一个模型应避免的“安全概念”来控制图像生成过程的方法。尽管论文中展示的结果保持了生成图像的质量和整体语义，但并未进行任何关于偏见和公平性的评估。

还有一些针对文本到图像模型、通过修改训练过程实现去偏的技术。其中，Choi 等人[7]的工作尤为突出：他们测量了 CelebA 数据集[12]中的偏见，并提出了两种修改训练过程的解决方案，以构建公平的图像生成模型。然而，他们的研究仅聚焦于生成对抗网络（GANs），且要求在模型训练阶段进行修改。此外，与我们的研究不同的是，Choi 等人使用性别分类模型对其生成图像进行评估，而未采用人工评估。

近期在扩散模型去偏方面的进展展示了在保持图像生成能力的同时提升多样性的潜力。Jiang 等人[10]和 Yesiltepe 等人[24]的研究均聚焦于探索模型的交叉注意力层（cross-attention layers）和无分类器引导（Classifier-free Guidance, CFG）。前者提出一种方法，精准识别并处理与偏见相关的语义区域，以缓解社会偏见；后者则强调通过解耦的交叉注意力编辑来应对交叉性偏见（intersectional biases）。

Jiang 等人[10]采用“区块投票”（Block Voting）和“语言对齐”（Linguistic Alignment）来准确识别并与偏见属性相关的语义区域进行去偏，在保持图像结构和语义完整性的同时，确保图像中多个个体的公平性。另一方面，Yesiltepe 等人[24]通过对交叉注意力权重进行解耦微调，缓解性别、种族和年龄等属性之间的复合偏见，在无需重新训练或参考图像的情况下取得了优异性能。

作为对上述去偏工作的补充，Brack 等人[5]提出了“语义引导”（Semantic Guidance，简称 SEGA）技术，以增强用户对图像生成过程的控制能力。通过在模型潜在空间中分离语义方向，SEGA 能够在不改变模型架构或重新训练的前提下，直观且细粒度地操控图像的构图、风格和细节等属性。尽管 SEGA 与我们的方法利用了类似的概念，但在语义空间操作方式上存在本质区别：SEGA 的作者使用特定概念来逼近或远离某些具体的图像细节；而我们的方法并不关注细粒度细节，而是聚焦于底层的偏见概念本身。此外，我们的评估方法结合了人工标注员，并引入 GPT-4o 作为评判者，用于检测偏见并检验自动识别偏见的能力。

3 材料与方法

我们在 SDXL 扩散模型[16]中实现并评估了 DECoDi。选择该模型是因为它代表了扩散模型家族，但任何其他基于扩散的模型均可替代使用。

在以下小节中，我们将详细说明 DECoDi 及我们的评估流程。用于复现我们结果所需的代码可在我们的代码库1中获取。

3.1 扩散模型中的概念去偏

我们设计了一种后训练向量空间操作[15]去偏程序，该程序可应用于任何无分类器引导的基于扩散的图像生成模型。我们的去偏程序是对“无分类器扩散引导”[9]和“安全潜在扩散”[18]中所提出思想与方法的扩展。

扩散模型中的图像生成是通过训练一个密集图像编解码器模型实现的，其任务是在图像中迭代地添加（编码）和移除（解码）噪声。编码器为数据集中的每张图像生成具有不同噪声强度的训练实例。在推理阶段，解码器从纯高斯噪声开始，经过若干轮去噪后逐步生成图像。

3.2 图像生成

我们通过分析生成的消防员、护士和CEO图像来研究我们的去偏程序。我们将这些职业中的每一个称为一个“概念”。选择这些概念是因为已知图像生成模型在生成这些概念的图像时，往往倾向于偏向特定的性别、种族和年龄[19]。

在我们的实验中，性别、种族和年龄是受保护属性。我们希望确保生成的图像不会偏向于每个受保护属性的某一特定取值。例如，针对“护士”这一概念，我们希望生成关于性别这一受保护属性更加多样化的图像，因此DeCoDi去偏程序会促使扩散模型同时生成女性护士和男性护士的图像。

以下是我们实验中用于生成图像的每个提示词（prompt）：

概念：消防员
- 提示词：“消防员的面部”
- 受保护属性：种族
- 偏见：白人
- 带偏见的概念提示词：“高加索人、白人、白皙肤色、以欧洲为中心、金发、浅色眼睛、浅色头发、白皙肤色、欧洲特征、窄鼻、直发、浅肤色、西方特质、北欧人、盎格鲁-撒克逊人、欧洲族裔”
概念：护士
- 提示词：“一名护士的面部”
- 受保护属性：性别
- 偏见：女性
- 带偏见的概念提示词：“女性、女人、柔美、精致特征、长发、马尾辫、化妆、苗条身材、温柔表情、富有养育气质、柔和微笑、母性、传统女性气质、裙子、连衣裙、围裙、女性姿态、小手、娇小体型、有爱心的女性、年轻女性、女护士、口红、淡妆、耳环、珠宝”
概念：CEO
- 提示词：“一位CEO的面部”
- 受保护属性：年龄
- 偏见：年长者
- 带偏见的概念提示词：“年老、年长、资深、皱纹、灰白头发、秃顶、后退的发际线、衰老、苍老面容、鱼尾纹、松弛皮肤、白发、眼镜、驼背姿势、虚弱、老年斑、中年、老人、老年男性、老年女性、资深高管、衰老的领导者、50多岁后期、60多岁、70多岁、衰老特征”

为确保图像生成过程可复现，我们使用了一组固定的随机种子来生成实验中的所有图像。对于每个被分析的概念，我们分别用基础模型和去偏模型各生成200张图像，共计生成1200张图像。

“带偏见的概念提示词”由GPT-4o模型在被要求描述所评估概念及其偏见时生成。例如，为了对性别进行去偏，我们向其提问：“我应该使用什么样的负面提示词，才能减少生成图像中对男性及男性化特征的描绘，并鼓励在通常偏向男性的职业中更多地呈现女性形象？（提示词长度控制在45至60个token）”该提示词用于引导去偏模型远离带有偏见的概念。

3.3 评估

我们通过人工检查全部1200张生成图像来评估我们的去偏方法。两名独立的人类标注员根据表1中所示的标注方案，对每张生成图像的受保护属性——性别、种族和表观年龄——进行人工标注。

需要特别强调的是，负责标注受保护属性的人员每次仅看到一张图像，且图像以随机顺序呈现；他们无法修改模型的提示词，也不知道当前正在评估的图像是由原始模型还是去偏模型生成的。

我们使用人工标注来评估我们的去偏程序在生成具有更多样化受保护属性特征的图像方面的有效性。我们计算并展示了去偏程序实施前后每种特征的比例。

使用人工标注进行评估的一个局限性在于标注过程本身固有的主观性，这可能导致标注者之间出现分歧。为应对这一问题，我们测量了每位标注者对所评估概念和受保护属性的标注一致性。

我们还采用 GPT-4o 模型作为第三位评估者，按照与人类标注者相同的方案（如表1所示）对每张生成图像进行标注。我们使用卡方检验（χ² test）测试 GPT-4o 的评估结果是否在统计上等同于人类的评估结果，并观察每个 GPT-4o 评估结果与每位人类标注者的吻合程度。该测试旨在验证自动化评估是否可等同于人工评估——这一方法受到“模仿游戏”[22]的启发。我们在实验中未对多重检验进行校正，因为在我们的统计检验中，“阳性”结果是指未能拒绝零假设，这与卡方检验通常的应用方向相反。该决定将在结果部分进一步讨论。

对于图像质量，我们使用 VIT-L 后端计算 CLIP-Score [8]，并同时依据 Li 等人[11]的定义计算归一化 KL 散度，作为衡量生成图像公平性的指标。

4 结果

在图1中，我们展示了由原始模型和去偏模型分别生成的部分图像，以说明去偏方法的效果。在该图中，从上到下每一对行分别表示原始图像和去偏后的图像。从图1可以明显看出，DeCoDi 能够在保持其他特征（如服装、背景、姿态以及 CEO、消防员和护士等概念的提示语调性）不变的同时，对受保护属性进行去偏。这表明 DeCoDi 能够在维持生成图像整体语义的前提下，有效改变受保护属性。

下文两个小节对结果进行了更深入的分析。第一个小节展示了由两名不同人类评估员评估的去偏结果；第二个小节则讨论了 GPT-4o 的评估结果与人类评估的对比情况。

4.1 去偏模型的人类评估

在分别使用原始模型和去偏模型各生成600张图像后，两名人类评估员对每张生成图像进行了人工检查，并根据受保护属性进行了标注。表2汇总了两位评估员的标注结果。原始模型中存在偏见的受保护属性以粗体突出显示。

原始模型生成的 CEO 图像存在明显的年龄偏见：55.75% 的 CEO 图像被评估为老年人。经过去偏处理后，几乎不再生成老年人图像，相反，大多数人物被评估为年轻人。此外，针对 CEO 概念的去偏过程还带来了种族分布的更多样化：原始模型仅生成了20张亚洲人图像、0张黑人图像和4张印度人图像；而去偏模型则生成了79张亚洲人、70张黑人和40张印度人图像。

在消防员图像中，我们对种族进行了去偏。结果显示，原始模型中近90%的图像为白人，而去偏模型仅生成了11.25%的白人图像，大部分图像为印度人（41.25%）和黑人（46.75%）。

在年龄这一受保护属性上也观察到了影响：原始模型中68.5%的消防员被评估为年轻人，而去偏后该比例降至26.5%。在此实验中未发现性别分布的变化。

对于护士概念，我们应用了性别去偏。原始模型中几乎所有的护士均为女性，而去偏后仅有13%的护士被识别为女性。

我们还发现，在对护士进行性别去偏的同时，种族和年龄也受到影响，变得更加多样化。这一效应对种族和年龄的具体数值详见表2。此处特别指出：去偏前几乎没有任何护士被评估为老年人，而去偏后有33.5%被识别为老年人。

这些结果表明，我们的去偏程序有效缓解了性别、种族和年龄等受保护属性上的偏见。在所有评估场景中，我们仅通过修改模型推理过程（无需额外训练），就显著降低了生成图像的偏见程度。

此外，我们还注意到，所有去偏操作都对其他受保护属性产生了附带影响：对 CEO 概念进行年龄去偏的同时也改善了种族偏见；对护士进行性别去偏的同时也改善了种族和年龄的多样性；对消防员进行种族去偏的同时也影响了年龄分布。对此现象尚需进一步研究，但我们推测，这可能是由于模型潜在空间中不同受保护属性之间存在纠缠（entanglement），因此对某一属性的调整可能间接影响其他属性。

4.2 人类评估员之间的一致性
在本节中，我们探讨两位评估员在评估受保护属性时的主观性。我们将“一致性”定义为两位评估员对同一受保护属性选择相同取值的评估比例。例如，如果两位评估员都认为某张护士图像的性别为男性，则我们认为他们达成了一致。我们可以将这种一致性视为分类任务中准确率（accuracy）的类比。

在表3中，我们展示了两位人类评估员（评估员1和评估员2）之间的一致性，同时也展示了每位评估员与GPT-4o模型之间的一致性。

我们发现，不同评估概念之间的一致性差异很大。例如，在性别方面，评估员1和评估员2在超过90%的情况下对受保护属性的评估结果一致；但在年龄方面，一致性仅约为50%。这很可能是因为，从单张图像中判断年龄比判断性别更具挑战性。

另一个有趣的趋势是，与原始模型相比，去偏模型中的评估一致性似乎更低。这一现象出现在性别和种族两个属性上，但在年龄去偏模型中并未出现。我们推测，去偏过程生成了融合多种受保护属性特征的图像，导致这些图像更难被准确评估。

我们还在表3中列出了卡方检验（χ² test）的结果。在此设定下，零假设为“评估员1与评估员2的评估结果等价”，若显著性p值 < 0.05，则拒绝零假设。在评估员1和评估员2标注性别、以及在原始模型中标注种族的情况下，我们未能拒绝零假设；而在其他情况下，我们拒绝了零假设，表明人类评估员在评估年龄时存在统计学意义上的显著差异。我们还特别指出，去偏模型中种族评估的p值最接近我们的显著性阈值0.05。

我们决定不对多重检验进行校正（例如Bonferroni校正），这一决定直接影响了表3中的一行数据——即评估员1和评估员2对去偏后消防员图像的种族标注一致性。如果不应用Bonferroni校正，我们的结果在统计学上具有显著差异；反之则不显著。但这一差异并不会使我们的整体结论失效，因为其余所有情况均保持不变。

4.3 人类评估员与 GPT-4o 的一致性比较

在此部分，我们将评估员1和评估员2的标注结果与GPT-4o的评估结果进行比较。通过查看表3可知，总体趋势是GPT-4o与两位评估员均保持较高一致性，尤其在护士图像的性别属性上表现突出。最低的一致性为23%，出现在GPT-4o与评估员1在年龄属性上的对比。然而值得注意的是，年龄也是人类评估员之间一致性最低的受保护属性（49.74%），这表明该任务本身难度较大。

当将评估员1和评估员2的标注结果与GPT-4o进行比较时，卡方检验（χ² test）同样用于检验零假设——即GPT-4o的评估结果与人类评估员等价。在护士图像中，GPT-4o的评估结果与任一人类评估员之间均无统计学意义上的显著差异。在消防员图像中，结果则有所不同：在原始模型中未发现显著差异，但在去偏模型中，两位评估员与GPT-4o之间均观察到了统计学差异。对于CEO图像，我们在GPT-4o与评估员2的比较中未能拒绝零假设，这表明评估员2的标注结果比评估员1更接近GPT-4o。

总体而言，我们强调：评估员1与评估员2在原始模型和去偏模型中的整体一致性分别为82.11%和82.96%，而GPT-4o与评估员2的一致性分别为87.73%和81.26%。可见，评估员1与评估员2之间的一致性，与评估员2与GPT-4o之间的一致性相近。这一发现颇具意义，因为它为使用GPT-4o等模型评估公平性提供了支持性证据。

这些结果表明，在公平性评估场景中，使用GPT-4o等视觉-语言模型作为评判者或评估工具是一种可行的选择，其评估结果在许多情况下与人类评估员并无显著差异。这是一个有趣的发现，因为自动化的公平性评估有助于简化公平性衡量和偏见监控流程。

4.4 图像质量评估

为评估图像质量和公平性，我们对所有生成图像计算了CLIP-Score和归一化KL散度。图2展示了原始模型与去偏模型在这两项指标上的表现情况。

对于“护士”和“消防员”这两个概念，我们的方法在最小程度影响图像质量的前提下提升了公平性。然而，在“CEO”这一概念上，尽管我们的模型能够明显改变受保护属性（参见图1），但生成的图像样本仍存在偏见，只是偏见的表现形式不同。这一点在图2中可见：代表原始模型与去偏模型的点在公平性评分上表现相似，但评估员在去偏处理后表现出更高的一致性。

我们还调整了去偏过程的超参数，并研究了在不同超参数配置下图像质量与公平性的表现。图3总结了这些不同的超参数配置。可以看出，标记为“1”的原始模型在公平性方面几乎表现最差，而多种去偏超参数配置均显著提升了生成图像的公平性。

5 结论

图像生成模型中的公平性是一个紧迫的社会问题。随着生成模型日益普及，偏见可能被大规模传播和复制。然而，大多数去偏方法因计算需求过高而令从业者难以负担。在本研究中，我们提出了 DeCoDi——一种针对基于扩散的图像生成模型的有效去偏方法，该方法无需修改预训练或微调过程，仅需改变模型推理步骤，计算开销可忽略不计。

两名独立的人类评估员对我们的去偏方法进行了评估，并一致认为，我们的模型在性别、年龄和种族等受保护属性上生成了更多样化的图像。尽管去偏过程改变了这些受保护属性，但我们未观察到生成图像的其他特征（如姿态、面部表情和背景）发生明显变化。

需要强调的是，尽管取得了良好结果，公平性与偏见评估本身具有固有的主观性。这种主观性体现在人类评估员之间的一致性不足上，尤其在年龄和种族这两个受保护属性上更为明显。尽管评估员之间可能存在分歧，我们的去偏方法仍能有效生成在受评估受保护属性上更具多样性的图像。

我们对 GPT-4o 与人类评估的对比评估表明，在许多情况下，难以区分人类评估与视觉-语言模型所作的评估。这一发现颇具意义，因为我们提供了证据，表明将模型作为评判者进行此类偏见评估，是识别图像生成模型中偏见的一种可行方案。

生成模型中的公平性是一个复杂且微妙的问题，远未得到彻底解决。然而，DeCoDi 是一种有前景的方法，能够在无需预训练或微调的情况下有效缓解模型中的偏见。

原文链接：https://arxiv.org/pdf/2508.14933v1