在 CVPR 2022上,商汤科技-南洋理工大学联合实验室 S-Lab 的研究者提出的基于生成先验的图像转换算法,针对主流的基于循环一致性的图像转换算法框架无法处理形态差异较大的领域之间的转换的问题,利用预训练好的条件生成对抗网络所提供的不同领域之间内在联系的先验信息,建立不同领域之间多层次的鲁棒映射关系,实现形态各异的领域之间的转换,有效提升了图像转换的适应性。

论文主页及代码: https://www.mmlab-ntu.com/project/gpunit/ 相关论文: https://www.mmlab-ntu.com/project/dualstylegan/
一、问题和挑战

无监督图像转换的目的是在没有成对图像监督的条件下将一个领域的图像转换到另一个领域的图像,具有图像编辑、图像艺术化、虚拟图像真实性渲染等应用。目前行业主流的技术采用基于循环一致性的方案,要求图像从原领域转换到目标领域后能再次转换回原领域,做到图像的重建。但是该方案只适合于原领域与目标领域高度相似的情况,例如马与斑马之间的转换。对于实际应用中广泛存在的形态差异较大的领域之间的转换,例如人脸与动物脸、卡通脸之间的转换,图像转换后往往丢失信息过多使得无法有效重建原始的图像,因此该方案无法取得理想的效果。

图 1 基于生成先验的图像转换算法实现形态各异的领域之间的转换
二、方法介绍

针对以上提出的问题,我们提出了一个基于生成先验的图像转换算法(GP-UNIT),利用预训练好的条件生成对抗网络所提供的不同领域之间内在联系的先验信息,训练内容编码器提取领域共享的高层次内容特征,并进一步在具体任务中学习中层次的内容特征,从而建立多层次的内容映射关系,实现自然精准的图像转换。因此算法包含两个部分:第一部分训练内容编码器蒸馏先验信息,第二部分训练图像转换网络。

图 2 GP-UNIT蒸馏生成先验示意图2.1 蒸馏先成先验

如图2左侧所示,我们的算法基于这样的观察:BigGAN使用相同的噪声不同的类别标签生成的图像,尽管形态各异,但是具有高度统一的语义对应关系,例如朝向、姿势等,这些规律提供了有效的生成先验,用于建立不同领域之间的关系。然而BigGAN生成的图像质量有限,且图像种类限制在ImageNet的1000类,并不适合直接用于图像转换。为此,我们训练内容编码器蒸馏该先验信息,提取BigGAN相同的噪声生成的图像所共享的高层次内容特征。

网络结构:如图2右侧所示,网络包含内容编码器Ec、风格编码器Es和解码器F。在训练中,随机采样两张训练图像x=BigGAN(lx, z)和y= BigGAN(ly, z),其中z为共享的噪声,lx和ly分别为两个类别标签。Ec和Es分别从图像x中提取内容特征cx和风格特征sx,解码器F根据cx、sx以及领域标签lx重建图像x。其中,sx和lx的信息采用AdaIN的形式输入到F。

训练目标:训练的目标是重建图像尽可能还原x,同时从y中提取的内容特征尽可能逼近cx,即提取生成的图像所共享的高层次内容特征。此外,我们还采用图像分割技术对训练图像前背景分割,得到图像x的前景掩膜,F还额外要求重建前景掩膜,以更加关注物体的形状信息,避免背景和物体颜色纹理风格的干扰。最后,我们对内容特征添加L2正则约束,使之尽可能稀疏。

图 3 GP-UNIT图像转换示意图2.2 图像转换

在训练好内容编码器Ec后,我们固定Ec,训练图像转换网络,实现图像转换。预训练的Ec允许我们约束转换前后图像内容特征的一致性,较标准的循环一致性,无需同时训练反向转换的网络,且约束在更加鲁棒的特征空间。

网络结构:如图3所示,除了Ec,图像转换网络还包含风格编码器Es、生成器G和判别器D,其中Ec和G之间建立了动态跨层连接,提取不同层次的内容特征,建立不同领域图像之间多层次的内容映射关系。

动态跨层连接:尽管Ec能提取不同差异明显的物体之间的高层次内容特征,例如物体的位置和朝向,但对于相似的物体,优秀的图像转换还需要挖掘它们之间更多层次的内容映射关系,例如五官的对应关系。因此,我们通过动态跨层连接将Ec中间层的内容特征的有效部分输入G,来建立上述的多层次的内容映射关系。具体而言,动态跨层连接在Ec每一层估计一个掩膜m,将Ec的编码器特征与G的生成器特征由m加权组合,实现中间层信息的引入。

训练目标:对于从图像领域X到领域Y的具体任务,在训练中,随机采样图像x∈X,y∈Y,Ec分别从x和y中提取内容特征cx和cy,Es分别从x和y中提取风格特征sx和sy,生成器G根据cx和sy生成x转换到领域Y的图像yhat=G(cx,sy)。训练目标是yhat的内容特征与cx一致,且风格与y一致,D网络无法分辨yhat的真假。此外,为了更好地学习图像y的风格,我们要求G根据cy和sy重建ybar=G(cy,sy)需要与原图y一致。最后,我们对掩膜m添加L1正则约束,使之尽可能稀疏。


三、实验结果

图3比较了GP-UNIT与6个图像转换模型TraVeLGAN, U-GAT-IT, MUNIT, COCO-FUNIT 和StarGAN2.的表现,基于循环一致性的U-GAT-IT, MUNIT和StarGAN2依赖输入图像的像素信息实现图像重建,因此会产生不理想的瑕疵,例如将狗的耳朵转换为了猫的脸颊,生成了不自然的脸型。同时,TraVeLGAN和COCO-FUNIT在人与猫的面容转换以及作为压力测试的鸟与车的转换任务上无法建立内容的关联。而我们的算法在性别转换任务上与比较方法取得了相当的表现,在其他更困难的任务上展示了明显的优势。除了主观视觉质量外,我们在图4还报告了客观质量的比较。我们的结果在真实性(FID)和多样性(Diversity)上都与目前最先进的算法相当或更优异。

图 4 主观视觉比较

图 5 客观质量比较

图6直观展示了GP-UNIT学习到的多层次的内容映射关系。Ec提取的lv.0的高层次内容特征主要提供了物体的位置信息。如果只使用该特征(将lv.1和lv.2的掩膜m都设置为全0),GP-UNIT无法生成的老虎和狗的细节。而lv.1的掩膜关注到了中层次的五官特征,将五官出的内容特征传递给生成网络,从而能够生成高质量的结果。在相似度更高的猫和老虎之间,lv.2的掩膜还发现了它们更细粒度的联系:胡须的模样。因此,GP-UNIT发掘的多层次内容特征能够有效模拟输入图像中细长的胡须。注意到GP-UNIT并没有在差异较大的领域例如人与狗之间发现该细粒度的联系,也就是说GP-UNIT能根据具体的任务,自适应的建立合适的多层次的内容映射关系。

图 6 GP-UNIT提取的多层次内容映射关系可视化

四、总结

在这项工作中,我们探究了利用生成对抗网络的生成先验搭建鲁棒的图像转换框架。我们提出的两阶段训练框架能够仅仅通过不同物体的外观信息以及其所属的领域信息,有效地挖掘它们之间多层次的内容映射关系。我们提出的基于生成先验的图像转换算法有效提升了图像转换的适应性。

References

[1] Justin NM Pinkney and Doron Adler. Resolution dependent GAN interpolation for controllable image synthesis between domains. NeurIPS 2020 Workshop on Machine Learning for Creativity and Design.

[2] Zongze Wu, Yotam Nitzan, Eli Shechtman, and Dani Lischinski. StyleAlign: Analysis and applications of aligned stylegan models. arXiv preprint arXiv:2110.11323, 2021.

[3] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha. StarGAN v2: Diverse image synthesis for multiple domains. CVPR 2020.

[4] Min Jin Chong and David Forsyth. GANs N’ Roses: Stable, controllable, diverse image to image translation. arXiv preprint arXiv:2106.06561, 2021.

[5] Junho Kim, Minjae Kim, Hyeonwoo Kang, and Kwang Hee Lee. U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation. ICLR 2019.

[6] Utkarsh Ojha, Yijun Li, Jingwan Lu, Alexei A Efros, Yong Jae Lee, Eli Shechtman, and Richard Zhang. Few-shot image generation via cross-domain correspondence. CVPR 2021.

[7] Sam Kwong, Jialu Huang, and Jing Liao. Unsupervised image-to-image translation via pre-trained StyleGAN2 network. TMM 2021.

公众号:【商汤学术】 作者:杨帅

Illustration b y xopolin from icon s8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球