面部表情姿态全覆盖，Omni-ID：5s 生成高保真个体图片|omni|编码器|面部表情姿态|高保真

团队提出了 Omni-ID，这是一种为生成任务设计的创新人脸表示方法。Omni-ID 能够编码个体在多种表情和姿态下的全面人脸信息。它将多个非结构化的人脸图像整合为固定大小的结构化表示，每个表示条目捕捉特定的全局或局部人脸特征。

通过few-to-many identity reconstruction （少对多人脸重建）的训练范式，团队使用少量图像输入，重建同一人在多种姿态和表情下的多张目标图像。Omni-ID 的训练框架采用multi-decoder objectives （多解码器策略），结合了不同解码器的优势，以增强人脸特征。

与传统人脸表示（如 ArcFace和CLIP）的判别式或对比式目标不同，Omni-ID 使用生成式目标进行优化，从而更细腻地捕捉适用于生成任务的人脸特征。在团队开发的MFHQ 数据集训练后，Omni-ID 在不同下游生成任务中表现出了显著的性能提升。

论文题目： Omni-ID: Holistic Identity Representation Designed for Generative Tasks 论文链接： https://arxiv.org/abs/2412.09694v1 项目主页： https://snap-research.github.io/Omni-ID/

Omni-ID 是一种为生成任务量身定制的新型面部表示方法，它能够将非结构化的图像中的身份特征编码为固定大小的表示，同时捕捉个体多样化的表情和姿态，从而实现高保真的个性化生成。

一、动机

生成能够准确表达个体人脸的图像需要一种能够描绘丰富细节、涵盖多种表情和姿态的人脸表示方法。然而，现有方法存在以下不足：

依赖单张图像的编码，缺乏对个体全面外貌信息的捕捉。
优化目标主要面向判别任务，难以保留定义个体独特人脸的细微差异，尤其是在多种姿态和表情下。

图：不同人脸表示在生成任务中的表现对比
二、方法

团队提出了一种名为 Omni-ID 的新型人脸表示方法，主要特点包括：

Omni-ID 编码器：接收多张图像输入，通过自注意力和跨注意力机制学习全局和局部人脸特征，生成固定大小的编码。
少对多人脸重建：输入少量图像，通过多解码器生成同一人在多种场景、姿态和表情下的图像。
多解码器策略：结合不同解码器的特性，提升表示学习的鲁棒性和增强细节表示。

2.1 少对多人脸重建

Omni-ID 使用少对多身份重建训练范式，不仅能够重建输入图像，还可以生成同一身份在各种场景、姿态和表情下的多样化图像。这种策略鼓励表示方法捕捉在不同条件下观察到的核心身份特征，同时缓解对单一输入图像特定属性的过拟合问题。

Omni-ID 采用多解码器训练目标，结合了多种解码器的独特优势，例如提升生成图像的保真度或减少身份泄露问题，同时缓解单一解码器的局限性。这使得输入图像中包含的详细面部信息能够被充分利用，从而生成更鲁棒的编码，在各种生成任务中有效泛化。

图：Omni-ID 的少对多人脸重建训练策略2.2 Omni-ID 编码器

Omni-ID 编码器使用跨注意力机制提取输入图像的关键信息，并通过自注意力进一步优化编码表示。其生成的编码能够综合多个输入图像的人脸特征。

三、实验

3.1 个性化文本到图像生成（表示方法对比）

Omni-ID 在单张和多张输入图像条件下的人脸保留能力显著优于 CLIP。

图：不同表示方法在个性化文本到图像生成任务中的定性对比
3.2 个性化文本到图像生成（与 SOTA 对比）

Omni-ID 在 FLUX 模型上表现超越了现有的个性化技术（如 PuLID）。

图：使用 FLUX 模型的个性化文本到图像生成任务中与 SOTA 方法的定性对比3.3 基于SD base model的个性化生成

Omni-ID 也可以用于SD模型，并优于其他方法。

图：基于SD的个性化文本到图像生成任务中的 SOTA 对比
3.4 可控人脸生成

Omni-ID 实现了卓越的人脸保留能力，能够更真实地捕捉细节，同时适应多种姿态和表情。

图：与 SOTA 方法在可控人脸生成任务中的定性对比

四、总结

本文介绍了Omni-ID，一种专为生成任务设计的人脸表示方法，能够捕捉个体在不同表情和姿态下的整体人脸特征。在少到多人脸重建框架下训练，Omni-ID 编码器能够从多样化的输入图像中编码细粒度的人脸特征，展现出卓越的整体人脸特征提取能力。与 ArcFace 和 CLIP 等判别式表示不同，Omni-ID 保留了对于高保真生成任务至关重要的细微人脸信息。未来工作涵盖将Omni-ID扩展至头发与体型，扩大数据和模型规模，以及用于更多样的下游任务。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（