CVPR 2024 | 基于DINO语义指导的单样本可变形人脸风格化|cvpr|视频生成模型|语义指导

该工作针对单样本人脸风格化任务，考虑外观的跨域变化的同时，强调了艺术风格中的几何变形的重要性。具体来说，提出了一种基于DINO语义指导的可变形人脸风格化框架，通过在单一真实-风格图像对上进行训练，能够生成多样化、高质量的风格化人脸，同时保持输入人脸的身份一致性。

论文题目： Deformable One-shot Face Stylization via DINO Semantic Guidance 论文链接： https://arxiv.org/pdf/2403.00459 项目主页： https://vcc.tech/research/2024/DoesFS 代码已开源： https://github.com/zichongc/DoesFS

一、引言

基于样例的人脸风格化旨在修改人脸照片风格，使其与指定的艺术人脸样例的风格一致。然而很多艺术风格样例十分稀缺，使用极其有限的风格样本对模型进行训练往往会出现过拟合现象。当前一些工作针对单样本人脸风格化通过不同的训练策略缓解了过拟合问题。然而，这些方法主要关注颜色和纹理的迁移，忽略了结构上的几何变形在艺术风格中的重要性。

我们能否同时考虑外观变化和结构形变，仅仅根据一个风格样例来对人脸照片进行风格化呢？目前的方法都是对给定的风格人脸样例通过GAN逆映射来估计其在自然人脸域中的长相，并以此构建从自然域到风格域的迁移指导。但是这样会误导艺术风格中的几何形变信息，如图1所示。在该项工作中，我们主张使用真实-风格图像对来构建可靠的跨域变形指导，从而捕捉更全面的艺术风格元素以实现更高质量的人脸风格化效果。然而，现有方法缺乏对语义结构变化的关注，无法较好地捕获样例数据对中的形变模式。

图1 艺术格样例与GAN逆映射结果

为此，本文提出一种基于DINO语义指导的单样本可变形人脸风格化框架，利用大规模自监督DINO-ViT[1]构建跨域的鲁棒且一致的人脸结构表示，进而引入方向变形损失和基于DINO特征自相似性的相对结构一致性约束。此外，本文以StyleGAN[2]作为人脸生成器基础网络，通过集成空间变换器STN使其具有变形感知能力。生成器在单一真实-风格图像对上进行微调训练，仅需10分钟。大量定性与定量比较证明了方法的有效性和优越性。

二、技术贡献

本工作主要贡献如下：

探索了DINO-ViT的特征空间，并构造了一个跨域一致的人脸结构特征表示；
利用DINO的结构特征提出了方向变形损失和基于特征自相似的相对结构跨域一致性损失，作为跨域人脸结构变形指导；
将空间变换器STN集成到StyleGAN生成器中，并使用单一真实-风格图像对进行训练。通过定性和定量比较证明了方法的优越性。

三、方法介绍

图2 基于DINO语义指导的单样本可变形人脸风格化框架

本文方法的核心是使用设计的人脸结构变形损失和对抗损失来微调具有变形感知能力的StyleGAN生成器，整体框架如图2所示。模型训练时，首先采样隐编码并通过Style Mixing分别向真实-风格图像样例进行颜色对齐，得到和；接着将其分别输入到自然域StyleGAN生成器和变形感知生成器中，生成自然人脸图像和风格人脸图像。通过计算本文设计的损失，优化变形感知生成器，使其具备高质量风格人脸生成的能力。推理阶段，用户输入自然人脸图像，首先通过e4e[3]逆映射编码器获得其对应的隐编码，接着将隐编码输入到微调后的变形感知生成器，生成对应的风格人脸图像。

本文的主要研究内容由变形感知生成器、DINO语义指导、基于DINO语义的域适应以及颜色对齐这四部分组成，下面详细介绍。

3.1 变形感知生成器

在FFHQ人脸数据集上训练的StyleGAN网络具有强大的高质量人脸生成能力，但是对带有夸张变形的域外（OOD）人脸却难以生成。因此在诸如讽刺漫画风格的小样本迁移学习中，艺术风格，尤其是几何变形部分学习效果往往欠佳。为此，我们基于卷积网络的平移不变性，将STN（Spatial Transformer Network）集成到StyleGAN生成器中，对其中间层输出的卷积特征进行基本变换和TPS（Thin-plane Spline）变形，赋予生成器几何变形感知能力。变形感知生成器网络结构如图3所示：

图3 变形感知生成器

为了让STN带来的变形更加光滑，我们对TPS-STN的扭曲场进行约束：

3.2 DINO语义指导

通过学习的方式捕获人脸图像对中的几何变形模式需要稳健的结构特征作为指导。为此，我们希望能够利用现有的特征提取器来构建可靠的跨域变形指导。DINO-ViT是一种通过自蒸馏模式训练得到的视觉Transformer，在高级语义信息提取方面具有突出的性能。相比于当前流行的弱监督视觉Transformer（如CLIP[4]和FaRL[5]），我们认为DINO在自蒸馏学习中受益于训练数据增强操作，在语义结构信息的提取上更胜一筹。图4左对这三个ViT的特征进行了PCA可视化，可以看到DINO在自然人脸域和风格域中都展示出的更合理人脸语义结构划分，证实了我们的观点。因此，我们使用DINO作为人脸结构特征提取器来构建跨域变形指导。

为进一步提高跨域变形指导的可靠性，我们还通过一个简单的过拟合测试分析了DINO中不同层的Tokens和Keys特征的表达能力。图4右展示了测试中各个特征组合下的拟合损失曲线。经过分析，我们选择Tokens特征作为人脸结构的特征表示。

图4 不同ViT的各层特征PCA可视化（上）与不同DINO特征组合对过拟合收敛实验的损失曲线（下）3.3 基于DINO语义的域适应

本文的变形感知生成器用预训练的StyleGANv2进行初始化，为了将生成器从自然人脸域应用到目标风格域中，本文通过计算方向变形损失、相对结构跨域一致性损失和对抗风格迁移损失对生成器进行训练。

3.3.1 方向变形损失

方向形变损失由样本对的结构变化与生成数据对的结构变化之间的差异来表示，用于指导跨域变形的学习，其中我们使用DINO的Tokens特征作为结构表示。该损失定义为：

其中分别表示生成自然人脸及其对应生成风格人脸的结构变化方向和样例自然人脸及其对应风格人脸的结构变化方向，为DINO-ViT特征提取器。

3.3.2 基于特征自相似的相对结构跨域一致性损失

只有方向变形损失作为域适应的指导会导致过拟合现象。为此，我们提出使用DINO特征的自相似度来计算跨域一致性损失，约束生成的风格人脸域与自然人脸域之间的相对结构一致，保证生成人脸的多样性。

图5 相对结构一致性

图5展示了相对结构一致性的示意表示。我们首先将域内的样本两两相似度组合成向量和：

3.3.3 对抗风格迁移

颜色和纹理风格方面，我们通过对抗损失来学习给定样例的外观风格。判别器使用预训练的StyleGAN判别器做初始化，并修改为Patch判别器以关注局部的纹理和颜色风格。对抗损失如下：

其中为Patch判别器，为风格样例。

最后，域适应的总损失为：

3.4 颜色对齐

即便DINO特征能够比较好地解耦图像结构信息和外观信息，但是输入图像之间的颜色差异往往会对DINO结构特征的匹配带来一定影响。为了尽可能地消除这种干扰，我们利用Style Mixing操作，将采样的隐编码分别向真实-风格图像样例进行颜色对齐，得到和。具体操作是将隐编码的高层颜色编码（第9-18层）分别替换为风格样例中自然人脸和风格人脸对应隐编码的高层编码。

四、部分结果展示

图6展示了本文方法与现有的4个单样本人脸风格化方法的推理效果对比。其中这些对比方法都以单个风格人脸图像进行训练。由于这些方法都通过逆映射构造自然域的人脸长相，生成模型最终无法准确捕捉样例中的夸张变形模式。而本文方法能够得到更合理的结构变形和外观迁移结果。

图6 风格化结果与现有方法的结果对比

为更公平的对比，我们将MTG和JoJoGAN两个方法的训练输入修改为成对的图像样例，以对齐本文方法的训练输入。图7展示了与这两个变种方法的生成结果对比，本文方法的生成效果更加自然。由于缺乏可靠的跨域变形指导，变种方法在结构变形方面的效果不佳。

图7 风格化结果与现有方法的变种的结果对比

定量对比上，我们从视觉感知、结构变形、人脸身份三个方面与现有方法展开对比。我们使用LPIPS指标作为视觉感知的评估，另外设计了两个方向性指标（dir-CC, dir-ID）对结构变形效果、人脸身份保持进行评估。dir-CC和dir-ID分别使用VGG和ArcFace预训练模型提取特征，然后计算自然人脸图像到风格人脸图像的特征方向向量，用生成图像对与样例图像对之间的方向差异作为评估表示。表1展示了与现有方法在这三个指标上的定量对比。整体来看，相比使用单个风格样例训练的现有方法，本文方法在结构变形和身份保持两个方面有明显的优势；而对比使用成对风格样例训练的现有方法变种，本文方法也依然保持优越。

表1 在三个风格样例上的生成结果与现有方法的定量对比

表2展示了用户调研的结果。与任一现有方法对比，用户对本文方法的整体生成效果都有超过70%的偏好。

表2 用户调研结果

图8、图9展示了本文的消融实验结果。损失函数方面，方向变形损失和相对结构跨域一致性损失的组合能够有效学习风格样例中的形变模式，而对抗损失能够把握颜色风格的迁移。另外，STN的集成可以赋予生成器更好的变形能力，颜色对齐可以避免图像伪影的出现。

图8 损失函数消融实验结果

图9 STN模块消融实验结果（上）颜色对齐（C.A.）消融实验结果（下）

图10展示了本文方法对可调控的变形风格化人脸的生成能力。在生成过程中，对生成器中TPS-STNs的扭曲场进行简单的线性插值，可得到不同程度的人脸变形效果：

其中，为没有任何变形的扭曲场，为变形系数。

图10 可调控变形人脸风格化生成结果

五、总结与展望

本文介绍了一个全新的可变形人脸风格化框架，能够在单个真实-风格图像对下展开训练。在对抗风格损失和DINO语义指导下微调生成器，生成结果在外观迁移和结构变形方面都有高质量保证。通过定性定量的实验对比，本文相比现有单样本人脸风格化方法取得显著进步。

六、思考与讨论

Q: 方法相比现有工作做了多方面的改进，应用到成对的风格样例时得到了明显的人脸风格化效果，那么该方法能否应用到单一风格图像数据上呢？效果还会一样好吗？

A: 对于只有单一风格图像的情况，本文方法依然可以按照现有方法那样先对风格图像逆映射获得对于的自然人脸，并以此构成成对数据进行训练。图11展示了一个例子，本文方法效果仍然有所保证，但由于GAN逆映射局限，风格样例中标志性的笑容没有获得保留。

图11 单一风格图像（上）与成对风格样例（下）作为数据样本训练的模型生成结果

Q: 本文方法模型的生成结果多样性怎么样？

A: 我们选择了三个风格样例并计算IS指标对模型的生成多样性进行评估，如表3所示。本文方法的生成多样性要优于现有方法及其变种。

表3 与现有方法的生成结果多样性IS评估

以下是开放性问题，欢迎读者朋友留言讨论：

Q: 如果提供的真实-风格人脸图像之间本身不够相似，训练出来的生成模型效果还会好吗？

参考文献

[1] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv'e J'egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. International Conference on Computer Vision (ICCV). 9650-9660, 2021.

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 8110-8119, 2020.

[3] Omer Tov, Yuval Alaluf, Yotam Nitzan, Or Patashnik, and Daniel Cohen-Or. Designing an encoder for stylegan image manipulation. ACM Transactions on Graphics (TOG). 40(4), 133:1-133:14, 2021.

[4] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. International Conference on Machine Learning (ICML). 8748-8763, 2021.

[5] Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, and Fang Wen. General facial representation learning in a visual-linguistic manner. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 18676–18688, 2022.