从部分到整体：可控人体图像生成的统一参考框架|参考框架|编码器|视频生成模型|遮罩

在人体图像可控生成领域，尽管在控制姿态和人物身份等方面取得了显著进展，但要通过不同人体部位实现精准控制仍面临重大挑战，尤其是在涉及多重可控条件时，控制效果往往难以保证。

针对这一问题，北京航空航天大学的研究团队提出了一种新颖的研究方法“从部分到整体”（Parts2Whole）。这项技术能够利用多个参考图像，包括姿势图和不同的人体部位外观，生成高度可控的人体图像。

该研究方法的核心在于其创新的语义感知外观编码器，共享自注意力机制和掩膜引导的主题选择机制，使得从多个参考图像中精确抽取目标特征成为可能。

论文标题： From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation 论文链接： https://arxiv.org/pdf/2404.15267 代码链接： https://github.com/huanngzh/Parts2Whole 项目主页： https://huanngzh.github.io/Parts2Whole/

一、Parts2Whole做的任务是什么？

在图像生成领域，可控的人体生成技术正逐步展现其重要性。这一技术不仅能够按照特定的文本描述或结构信号（比如姿态等信息）来合成人像，还能够根据更精确的外观条件（比如人脸）进行调整，从而为用户提供了一种全新的定制化肖像解决方案。

然而，当前的研究主要集中在使用单一图像或文本条件进行生成，难以同时控制多种人体外观特征的合成，这些方法往往忽视了如发型、服装等其他关键外观特征的综合控制，且在保持生成图像与多部分条件一致性上仍存在挑战。

针对以上问题，研究者们提出了一个全新的框架：Parts2Whole。该框架旨在实现从多个参考图像中生成高质量、高一致性的完整人体图像，这些参考图像可以包括不同的人体部分，如头发/头饰、面部、服装和鞋子等。

Parts2Whole不仅可以从多个不同人体部分来进行完整人体图像的生成，还可以使用不同数量的人体部分进行生成，比如可以只根据一张人脸的参考图像进行生成，也可以使用一个人脸加衣服的参考图像作为控制条件来进行生成。总的来说，Parts2Whole可以根据不同数量的人体部分图作和给定的目标姿态图，生成与控制条件高一致性，高质量的人体图像。

二、Parts2Whole是如何构建数据的？

研究者在开源数据集DeepFashion-MultiModal 的基础上进行了后处理操作，主要包括：对数据集进行id清洗；使用清洗后的同一id，同一衣服，不同姿态的人体图像来构建训练对（pair）；提取对应图像的人体姿态（pose）图；根据人体解析图（human parsing）来指导分割；分割后的参考图像进行图像超分。最重构建出约41,500条数据。

三、Parts2Whole的关键技术是什么？

Parts2Whole采用了一种独特的语义感知外观编码器，该编码器能够将每个参考图像及其文本标签编码成多尺度的特征图，保留了丰富的外观细节和空间信息。此外，通过在扩散过程中使用共享自注意力机制，该框架能够在保持参考特征的位置关系的同时，将这些特征精确地注入到图像生成过程中。同时，为了更精确的从参考图像中选取关键特征，Parts2Whole还提出了增强的遮罩引导主体选择机制。

3.1 语义感知外观编码器（Semantic-Aware Appearance Encoder）

语义感知外观编码器是框架的一个关键部分，它可以处理多个参考图像，每个图像对应不同的人体部分（如头发、面部、上身衣物等）。每个参考图像及其对应的文本标签被编码成一系列多尺度的特征图。这种编码方式不仅保留了图像的细节和空间信息，还通过文本标签提供了类别指导，帮助编码器理解不同部分的语义信息，从而更好地保持图像的细节和现实感。这一过程采用了与去噪U-Net相同的网络结构，并使用了预训练的权重。

3.2 共享自注意力机制（Shared Self-Attention）

在获取了N个参考图像的多层特征图之后，框架并不是简单地将这些特征直接加入去噪U-Net，而是采用共享的键（keys）和值（values）在自注意力层中进行特征注入。这种设计允许每个特征位置不仅关注自身的特征，还能关注其他参考图像的特征，且该注意力操作在图像维度开展，能够保留参考图像的外观细节。此外，通过借鉴IP-Adapter在Stable Diffusion模型中额外加入的交叉注意力层，可以进一步引入参考图像的CLIP特征和文本输入，增强生成图像的控制能力。

3.3 增强的遮罩引导主体选择（Enhanced Mask-Guided Subject Selection）

为了从多个参考图像中精确选择目标部分，框架增加了一个遮罩引导的自注意力机制。这个机制通过引入参考图像中的主体遮罩，可以更准确地将注意力限定在特定的部分，避免由于背景或其他不相关元素的干扰导致生成的人体图像出现不自然的外观。这一设计不仅提高了生成图像的质量，也增强了对生成过程的控制性和精确性。

通过这个统一参考框架，Parts2Whole能够有效地处理和整合多个参考图像的特征，生成与输入条件高度一致且细节丰富的人体图像，显著提高了人像生成技术的灵活性和实用性。

四、Parts2Whole的效果怎么样？

研究者在构建数据中的测试集上进行了实验，可以看出Parts2Whole能够从多个参考图像中精准的提取出颜色、纹理和图案细节，具有较高的图像生成质量。

Parts2Whole还可以根据不同人物的图片部分来组合定制全身图像和支持任意的控制条件数量。

4.1 轻松定制全身图像

Parts2Whole能够有效地处理和整合多个不同人体的参考图像，比如想试试自己的外观搭配人物A的发型，人物B的上衣，人物C的裤子会是什么样子的，通过Parts2Whole，可以轻松的实现这一目标。

4.2 任意控制条件数量

Parts2Whole不仅可以从多个不同人体部分来进行完整人体图像的生成，还可以使用不同数量的人体部分进行生成，比如可以只根据一张人脸的参考图像进行生成，也可以使用一个人脸加衣服的参考图像作为控制条件来进行生成。

五、总结

Parts2Whole技术在人体图像可控生成领域取得了显著进展。该技术突破了传统方法在处理多重可控条件下的限制，实现了从多个参考图像精准抽取并整合人体部位特征的能力。通过利用创新的语义感知外观编码器、共享自注意力机制和增强的遮罩引导主题选择机制，Parts2Whole可以生成与输入条件高度一致且细节丰富的人体图像，显著提升了人像生成技术的灵活性和实用性。

研究的未来方向将集中于进一步提升生成图像的ID保持度和图像的生成质量，同时拓展该技术的应用场景，比如在自然场景、虚拟现实以及个性化时尚设计中的应用。此外，团队也计划探索更高效的泛化算法来提高生成效果的泛化性，比如图片的风格等。综合来看，Parts2Whole为高质量、高一致性的定制化人体图像生成开辟了新的可能性，期待未来在此基础上的更多创新和应用。

llustration From IconScout By Pablo Stanley

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（