IJCAI 2021 | 德国CISPA联合马普所等利用图像再生成助力伪造图像检测|ijcai|频域

随着生成式模型和深度神经网络的逐年发展，依靠人眼分辨生成图像和真实图像正在变得越来越困难。

作为双刃剑，生成式模型除了提供很多有趣的应用如图像编辑、特效生成外，它也为一些恶意用途提供了便利。为了阻止利用AI技术伪造图像信息，来自德国CISPA亥姆霍兹信息安全中心和马克思普兰克计算机科学研究所的研究人员针对当下流行的生成式模型展开研究，提出了一个图像再生成的过程，并利用该过程提取有效特征并检测伪造图像。该成果Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis发表于IJCAI 2021, 在一系列检测条件下取得了相较之前方法更为稳定的检测结果，希望推动安全干净的AI应用。

项目链接：

https://ssaw14.github.io/BeyondtheSpectrum/

论文：

https://arxiv.org/abs/2105.14376

代码：

https://github.com/SSAW14/BeyondtheSpectrum

一、引言

近年来，生成式模型取得了长足的进步，特别是基于对抗式生成网络（GAN）的图像生成已经可以合成十分逼真的高分辨率人脸图像。使得依靠人眼判断包含敏感信息的图片的真伪变得越发困难，从而为恶意伪造以传播虚假图像信息提供了可能。因此，检测合成图片成为近年来的一个研究热点。根据最近的研究[1]，合成图像和真实图像非常容易被分类，然而，我们观察到检测合成图像仍旧是一项具有以下挑战的任务。

· 通过频域分析，由于生成器中去卷积操作（deconvolution）的使用，使得合成图像的高频信息分布与真实图像存在明显差别，因此利用局部细节信息或者频域特征[1,2,3]，可以实现几乎完美的检测效果。然而，通过引入频域正则项到生成器的训练中[4,5]可以使得分类器严重失效，从而达到传播虚假信息的目的。

· 在真实检测场景中，伪造图像的提供者可以轻易地结合诸如模糊，JPEG压缩等技术对生成图像进行后处理，从而改变图像的局部细节信息，进而对检测造成影响。

· 最后，检测器的训练依赖于数据集的选择。即使只针对特定类别的检测问题，数据分布的差异也使得检测器严重退化。然而在真实检测场景中，无法知道合成图像的数据源，因此跨分布检测成为合成图像检测中的另一难点。

二、方法

本文提出方法的关键是获取稳定有效的特征，从而可以在频域正则、图像后处理、跨数据分布条件下相较之前方法更为有效的检测性能。为了达到这一效果，我们提出了一个图像再生成的特征提取框架。此外，为了克服局部细节（low-level）较为敏感的特性，我们还结合高层（high-level）特征进我们的框架。下图描绘了本文方法，其中，再生成器（Re-synthesizer）用于提取特征，分类器则实现伪造图像的检测。

再生成器定义为一个图像重建任务。在本文中，我们尝试了基于三种不同任务的模型：1、超分辨率重建；2、超分辨率重建+色彩化；3、超分辨率重建+去噪。

特别地，我们只使用真实图像训练再生成器，从而使得本方法中的超分辨率模块可以很好地拟合在真实图像分布上。因此，这种不针对特定图像伪造模型（如：StyleGAN, ProGAN等）的方法可以在测试阶段面对不同的伪造模型时也取得良好的泛化效果。

下图中，我们描绘了基于超分辨率重建任务的模型在真实图像和StyleGAN、ProGAN合成图像。此外，我们还对低分辨率图像进行了灰度化和加噪操作，并取得了更为稳定的检测。

此外，对于再生成器的训练，我们引入了基于ImageNet预训练模型的perceptual loss，从而可以使得我们使用高层特征作为监督信号。此外，我们使用像素级别和高层特征级别重构误差图作为特征实现分类。和像素级重构误差类似，我们也可以看到，真实图像在Stage5的重构误差比合成图像更小。下图中，我们显示了所提取的特征。可以清晰地看到，合成图像具有明显不同于真实图像的模式。最后我们利用重构误差图作为输入特征训练分类器，并且对再生成器和分类器进行端到端的训练（具体步骤及公式请阅读原文）。

三、实验

稳定性实验

我们首先针对人脸图像进行测试。在测试阶段，我们使用频域正则项[4,5]重新训练了GAN（+R, +E, +A），以测试不同方法对于频域信息处理的稳定性。此外，我们还测试了包含加噪、模糊、JPEG压缩、随机裁剪的混合操作作为后处理（+P）。最后，我们在测试阶段使用了不同于训练阶段的图像生成器。

跨数据集实验

在测试阶段，我们使用了在不用于训练阶段数据集上训练的GAN模型（训练：CelebA-HQ，测试：FFHQ）。尽管两个数据集均为人脸图像数据集，通过跨数据集实验，我们可以看到大部分检测方法都受到了严重影响。然而，本文提出的方法相较之前方法仍比较稳定。

场景数据集实验

除了人脸图像，我们还使用LSUN数据集测试了关于场景的合成图像。我们观察到，在不同类型图像的实验中，各方法仍然对后处理较为敏感。这里，我们特别强调，本文提出基于Stage5特征的模型具有较好的稳定性，从而启发我们更多关注高层特征，而不仅仅利用低层特征进行伪造图像检测。

四、总结

尽管很多方法可以轻松地实现对伪造图像和真实图像的分类，伪造图像检测仍然是一项具有挑战的任务。尤其在实际场景中，伪造图像的高频和局部细节信息可以在不改变传达信息的条件下被修改，从而增加了检测的难度。本文提出了一个结合低层特征和高层特征的检测框架，并且在数据分布发生改变的情况下取得了更加稳定的检测效果。作为总结，我们认为合成图像的稳定性和泛化性是这一任务中的关键因素。其次，高层特征应当受到足够的重视，而不仅仅依靠低层或局部特征检测合成图像。

参考文献：

[1] S.Y. Wang et al.，CNN-generated images are surprisingly easy to spot… for now，CVPR，2020.

[2] J. Frank et al., Leveraging Frequency Analysis for Deep Fake Image Recognition, ICML, 2020.

[3] R. Durall et al., Unmasking deepfakes with simple features, arXiv:1911.00686, 2019.

[4] R. Durall et al., Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions, CVPR, 2020.

[5] S. Jung et al., Spectral Distribution Aware Image Generation, AAAI, 2021.

作者简介

贺洋，目前就职于亚马逊公司任应用科学家，此前于2019年十二月博士毕业于德国马克思普朗克计算机科学研究所，并于2020年在德国CISPA亥姆霍兹信息安全中心进行博士后研究工作。他的研究方向和兴趣包含计算机视觉，机器学习，大规模场景理解等。

Illustrastion by Oleg Shcherba from Icons8

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线330+期talk视频，900+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，

对用户启发更大的文章，做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

>> 投稿请添加工作人员微信！

扫码观看！