在人工智能迅猛发展的今天,深度神经网络展现出惊人的能力,从图像识别到自然语言处理,无所不能。然而,这些看似坚不可摧的系统却有着致命的弱点:对抗性样本。这些经过精心设计的微小扰动,能够在人眼无法察觉的情况下,轻易欺骗神经网络做出错误判断。更令人忧虑的是,为一个模型设计的对抗性样本常常能够迁移到其他完全不同的模型上,这种现象被称为"迁移性"。当对手无需了解目标模型的内部结构,便能成功发起攻击时,这种迁移性便成为了人工智能安全领域的一大隐患。本文将揭示这一神秘现象背后的机制,探索加强对抗样本迁移性的方法,以及在这个充满挑战与机遇的领域中未来的发展方向。
揭秘迁移性
对抗性样本就像是深度学习世界中的幽灵,它们能够悄无声息地潜入神经网络中,让计算机视觉系统把猫识别成狗,把停车标志识别成限速牌。这种技术最早可以追溯到2013年,当时Szegedy等研究人员发现,通过向图像添加几乎不可见的扰动,可以导致神经网络做出错误的预测。
更让人意外的是,为一个神经网络模型设计的对抗性样本,往往能够在未见过的完全不同的模型上也产生欺骗效果。这就好比一种万能钥匙,开启了一个模型的后门,却意外发现它也能打开许多其他模型的大门。这种现象就是对抗性样本的"迁移性"。
具体来说,假设我们有两个不同的神经网络模型,一个是源模型fs,另一个是目标模型ft。如果我们为源模型fs创建了一个对抗性样本xadv,使得fs对xadv的分类结果与原始输入x不同,那么当这个对抗性样本xadv也能让目标模型ft产生错误分类时,我们就说这个对抗性样本具有迁移性。
对于非目标性攻击(只需让模型分类错误即可),这种迁移性可以用数学表达式表示为:
当argmax(fs(xadv)) ≠ argmax(fs(x))成立时,argmax(ft(xadv)) ≠ argmax(ft(x))也成立。
而对于目标性攻击(让模型将输入分类为指定的错误类别),迁移性则表示为:
当argmax(fs(xadv)) = yt且argmax(fs(x)) = y成立时,argmax(ft(xadv)) = yt也成立,其中yt是目标错误类别。
那么,如何评估对抗性样本的迁移性呢?目前业界普遍采用"欺骗率"(Fooling Rate)作为主要指标。假设有P个能够成功欺骗源模型的对抗性样本,其中能同时欺骗目标模型的样本数为Q,那么欺骗率就是Q/P。欺骗率越高,说明对抗性样本的迁移性越好。
除了欺骗率,还有一些更细致的评估指标。比如"关注类别排名"(Interest Class Rank),它考虑的是目标类别在模型预测结果中的排名。在非目标性攻击中,关注类别是真实类别,排名越靠后越好;在目标性攻击中,关注类别是目标类别,排名越靠前越好。
此外,Liang等人在2021年提出了两个基于知识迁移的评估指标。第一个指标α1测量的是源模型上的对抗性扰动在目标模型上的有效性,相对于直接在目标模型上生成的最优扰动。第二个指标α2则衡量两个模型输出偏差方向之间的关系。这两个指标提供了对迁移性的互补视角:α1表示对抗性攻击迁移的频率,而α2则编码了输出偏差的方向信息。
值得注意的是,对抗性样本的迁移性是一个复杂的现象,受到多种因素的影响。模型架构的相似性、训练数据的重叠度、模型的复杂度等都可能影响迁移性。正是因为理解这些因素,我们才能更好地设计出具有高迁移性的对抗性样本,或者开发出能够抵抗这类攻击的防御方法。
增强迁移性
既然对抗性样本的迁移性如此重要,那么如何增强这种迁移性呢?研究人员提出了一系列基于替代模型的方法,可以从数据增强、优化算法、损失函数设计和模型组件四个角度来理解。
从数据增强的角度看,核心思想是通过对输入数据进行各种变换,防止对抗性样本过拟合于特定的替代模型。2019年,Xie等人提出了多样性输入方法(DIM),在每次迭代攻击时以一定概率对输入图像进行随机调整大小和填充。当调整比例越大,对抗性样本的迁移性就越好。
Dong等人则提出了平移不变性方法(TIM),他们发现不同模型在分类时会关注图像的不同区域。TIM通过寻找对原始图像及其各种平移版本都有效的扰动,来增强迁移性。实际上,这种扰动可以通过对梯度应用核矩阵来高效计算。
Lin等人在2019年提出的尺度不变性方法(SIM)则从另一个角度入手。他们发现将输入图像缩小往往能保持损失值不变,于是提出了寻找对各种缩小版本的输入都有效的扰动。与DIM不同,SIM是在每次迭代中同时优化多个不同尺度,而不是每次只应用一种变换。
更激进的方法是Zou等人在2020年提出的调整多样性输入(RDI),他们在应用DIM增强后将输入调整回原始大小,这使得他们能够测试更激进的调整和填充增强。有趣的是,他们还建议在攻击优化器中保持步长等于扰动范围,这进一步提高了攻击的成功率。
2021年,Wu等人跳出了固定增强集合的思路,提出了对抗性变换迁移攻击(ATTA),他们用网络参数化输入变换,并与对抗性扰动一起优化,使最终攻击对输入扰动更具弹性。
从优化算法角度看,许多研究者借鉴了训练神经网络的优化技术来提高对抗性样本的迁移性。Dong等人提出的动量迭代快速梯度符号方法(MI-FGSM)将动量项整合到输入梯度中,帮助逃离局部最优点。具体来说,在每次迭代中,MI-FGSM通过累积过去的梯度来更新当前梯度,使攻击方向更加稳定。
Lin等人则借鉴了Nesterov加速梯度(NAG)的前瞻特性,提出了Nesterov迭代快速梯度符号方法(NI-FGSM)。该方法先基于累积更新移动数据点,然后在这个前瞻位置评估梯度,帮助更快地逃离局部最优点。
Zou等人引入了Adam优化器,提出了Adam迭代快速梯度tanh方法(AI-FGTM)。这种方法不仅使用Adam而不是动量公式,还将符号函数替换为tanh函数,使扰动尺寸更小。AI-FGTM还计算自适应步长,使得总扰动量等于预设的扰动范围。
Wang和He则着眼于梯度方差问题,提出了方差调节技术,利用之前数据点附近的梯度信息来调节当前数据点的梯度。具体来说,他们引入了方差调节MI-FGSM(VMI-FGSM)和方差调节NI-FGSM(VNI-FGSM),通过估计梯度的方差来调整梯度更新方向。
从损失函数设计角度看,不少研究人员尝试改进传统的交叉熵损失,以获得更好的迁移性。Zhang等人在2022年提出的归一化交叉熵损失(RCE),旨在引导逻辑输出向最大化与真实类别的排序距离方向更新。RCE损失由两部分组成:传统的交叉熵和一个归一化部分,后者是对每个类别计算的交叉熵的平均值。
Xiao等人则探索了将生成模型作为正则化手段。他们发现即使是最先进的优化算法也难以避免陷入局部最优点,导致迁移性不佳。为解决这个问题,他们提出在低维流形上优化对抗性补丁作为正则化。具体来说,他们使用预先训练好的生成模型来生成对抗性补丁,并通过潜在向量来优化这些补丁。
Li等人在2020年则从度量学习的角度入手。他们发现有两个问题使目标性对抗性样本难以迁移:一是梯度逐渐减小导致噪声固化,二是目标性对抗性样本不仅需要接近目标类别,还需要远离真实类别。为解决这些问题,他们引入了庞加莱球作为度量空间,并提出了庞加莱距离度量损失,使梯度大小自适应,攻击过程中噪声方向更加灵活。
从模型组件角度看,Zhou等人在2018年首次证明,最大化干净图像和对抗性样本之间的中间特征图距离可以增强跨模型的迁移攻击。他们在损失函数中引入了两个额外的惩罚项,有效指导传统非目标性攻击的搜索方向。
Huang等人于2019年提出的中间层攻击(ILA),通过放大扰动对源模型特定层的影响来微调现有对抗性样本。具体来说,ILA寻找一个优化方向,使其与原始对抗性样本的方向匹配,同时最大化这个方向上的干扰范数。
Wu等人在2020年则从模型注意力角度减轻过拟合。他们将整个特征图视为基本特征检测器,通过空间池化梯度来近似特征图对特定类别的重要性。然后,他们用相应的模型注意力权重缩放不同的特征图,执行同一层所有特征图的通道级求和,得到标签预测的注意力图。最终目标是结合原始目标和注意力目标,既误导目标模型的最终决策,又破坏重要的中间特征。
上述各种方法从不同角度增强了对抗性样本的迁移性。通过数据增强防止过拟合,通过优化算法逃离局部最优,通过改进损失函数更好地引导优化方向,通过操作模型组件破坏特征表示,这些方法共同推动了对抗性样本迁移性的研究进展。
生成智能攻击
生成模型在对抗性样本研究中开辟了一条全新道路。与传统方法不同,生成模型不再依赖逐步迭代优化扰动,而是直接训练一个网络来合成具有迁移性的对抗样本。这种方法的核心思想很好理解:既然我们可以用神经网络生成逼真的人脸,为什么不能生成欺骗分类器的图像呢?
2018年,Poursaeed等人提出了生成对抗扰动(GAP),这是将生成模型应用于对抗样本合成的开创性工作。他们训练一个生成器网络,接收干净图像作为输入,输出对应的对抗样本。训练目标很直接:最大化替代模型的分类错误率。生成器一旦训练完成,生成对抗样本只需一次前向传播,效率大大提高。
同年,Xiao等人提出了AdvGAN,将对抗训练引入生成器训练过程。通过引入判别器网络并解决一个极小极大博弈问题,AdvGAN不仅追求欺骗分类器,还力求生成的样本保持真实感。他们在损失函数中加入了GAN损失项促进生成样本的真实性,以及一个软铰链损失限制扰动大小。这种方法在白盒攻击和黑盒迁移攻击中都表现出色。
跨域对抗扰动的研究也取得了进展。Naseer等人在2019年探索了生成模型在生成跨不同输入域的对抗攻击中的应用。他们提出使用相对主义损失函数来增强跨域目标性攻击的迁移性。相对主义交叉熵目标提供了一种"对比"监督信号,不依赖于底层数据分布,因此能实现更好的跨域迁移性。
为进一步提高跨域目标性攻击的迁移性,Naseer等人在2021年提出了一种考虑全局分布匹配和样本局部邻域结构的目标函数。具体来说,他们添加了两个损失项:一个最小化源域扰动样本分布与目标域中目标类真实样本分布之间的Jensen-Shannon散度;另一个对齐源域和目标域的相似度矩阵,以匹配基于邻域连接性的局部结构。这种方法在跨域攻击中表现出色。
2022年,Kim等人提出了注意力多样性攻击(ADA),通过随机扰动各种显著特征来增强对抗样本的迁移性。通过操纵图像注意力,他们的方法能破坏不同模型共享的公共特征,从而实现更好的迁移性。他们的生成器接收图像和随机潜码作为输入,并提出两个额外的损失项:一个最大化原始图像与对抗图像注意力图之间的距离,以进行类特定特征破坏;另一个通过鼓励生成器利用潜码中的信息来促进样本多样性。
在效率方面,早期的生成目标性攻击方法如GAP和Naseer等人的工作存在参数效率低下的问题,它们需要为每个类别训练一个单独的生成器。为解决这个问题,研究者提出了各种构建条件生成模型的方法,用一个统一模型处理不同类别的目标性攻击。
Yang等人在2022年提出了用于目标性攻击的条件生成模型,可以构建强语义模式(CG-SP)。具体来说,目标类别信息经过网络处理后作为生成器的条件。由于单个生成器难以学习所有目标类别的分布,CG-SP将所有类别划分为可行数量的子集,只为每个子集使用一个生成器,而不是为每个类别使用一个。
注入条件到合成过程的方法也有多种。一些研究者提出添加可训练嵌入,向输入张量添加目标类别信息。类似地,GAP++扩展了GAP,将目标类别编码作为模型输入,因此只需一个模型即可处理目标性和非目标性攻击。多目标对抗网络(MAN)则通过将类别信息整合到中间特征中,实现了用单个模型进行多目标对抗攻击。
为进一步提高对抗迁移性,内容感知对抗攻击生成器(CAG)将类激活图(CAMs)信息整合到输入中,使对抗噪声更集中在目标上。扩散模型作为一种新兴的生成模型,也开始被应用于对抗攻击研究。DiffAttack是第一个基于扩散模型的对抗攻击,其属性有助于实现不可感知性。具体来说,扰动在编码器和DDIM后的潜空间中优化。交叉注意力图用于分散对标记对象的注意力并破坏语义关系,而自注意力图则用于保持不可感知性和图像原始结构。
这些基于生成模型的方法展示了一种崭新的对抗攻击范式。通过一次性学习生成对抗样本的映射,而非逐步优化扰动,这些方法不仅提高了效率,还在某些情况下增强了迁移性。随着生成模型技术的不断进步,我们可以预期这一领域将继续涌现创新,带来更强大、更高效的对抗攻击方法。
多领域威胁
对抗性样本的威力远不止于图像分类,它已经扩展到计算机视觉的多个领域,甚至跨越到自然语言处理等其他任务。这种广泛的适用性使得对抗攻击成为人工智能安全研究中不可忽视的一环。
在图像检索领域,Xiao和Wang在2021年探索了对抗样本的迁移性。他们通过使用随机噪声作为代理,建立了对抗样本迁移性与对抗子空间之间的关系。基于这一发现,他们提出了一种对抗攻击方法,生成既具对抗性又对噪声扰动具有鲁棒性的样本,从而提高迁移性。
物体检测作为计算机视觉的重要任务,同样面临对抗攻击的威胁。Wei等人发现现有图像物体检测攻击方法的迁移性较弱,于是提出了一种生成式攻击方法,通过使用特征网络提取的特征图来增强对抗样本的迁移性。具体地,他们采用了生成对抗网络框架,通过高级类别损失和低级特征损失进行训练。
Cai等人于2022年提出了一种上下文感知攻击方法针对物体检测器。他们利用物体的共现、相对位置和大小作为上下文信息,生成具有高迁移性的对抗样本。Staff等人则探索了迁移攻击对物体检测的影响,发现增加攻击强度可以显著提高对抗样本的迁移性。他们还研究了攻击模型和目标模型的数据集交集对迁移攻击性能的影响,发现交集大小与迁移攻击性能直接相关。
图像分割作为另一个关键视觉任务,也不能幸免于对抗攻击。Gu等人在2021年探索了对抗样本在图像分割模型上的迁移性。他们研究了对抗样本在分类和分割模型上的过拟合现象,并提出了一种利用输入多样性的简单有效攻击方法,为分割模型生成具有高迁移性的对抗样本。Hendrik Metzen等人则探索了对抗样本通过生成通用对抗扰动来攻击语义图像分割模型的迁移性,他们提出的方法可以任意改变图像的语义分割,并在整个训练集上优化对抗扰动。
3D任务也面临类似挑战。Hamdi等人发现现有3D点云对抗攻击缺乏跨网络迁移性,于是提出了一种有效的3D点云对抗攻击方法,通过在目标中包含自动编码器重建的对抗损失来利用输入数据分布。Pestana等人则研究了由3D对抗纹理生成的3D对抗样本的迁移性,提出使用端到端优化为3D模型生成对抗纹理。具体地,他们采用神经渲染生成对抗纹理,并集成非鲁棒和鲁棒模型以提高对抗样本的迁移性。
人员重识别系统同样存在漏洞。Wang等人在2020年探索了对抗样本在这些系统上的迁移性,提出了一种学习错误排序方法来生成对抗样本。他们还采用多阶段网络通过提取可迁移特征来提高对抗样本的迁移性。
在人脸识别领域,Jia等人于2022年指出,先前的人脸识别对抗攻击方法依赖于在像素上生成对抗样本,这限制了对抗样本的迁移性。于是他们提出了一种统一灵活的对抗攻击方法,基于目标特定的人脸识别特征为不同属性生成对抗性扰动,从而提升攻击的迁移性。
视频任务也不例外。Wei等人在2022年发现现有视频攻击方法的迁移性有限,因此提出了基于时间平移的可迁移对抗攻击方法,在时间平移的视频片段上生成对抗扰动,以增强攻击的迁移性。
自然语言处理任务同样面临对抗攻击的威胁。Yuan等人在2020年对文本分类模型的对抗样本进行了全面调查,深入研究了不同因素(如网络架构)对对抗样本迁移性的影响。他们提出采用通用算法来发现能生成具有高迁移性对抗样本的模型集合。He等人率先展示了攻击者破坏基于BERT的API服务的能力,使用获得的模型可以生成具有高迁移性的对抗样本。Wang等人则研究了主题模型对抗样本的迁移性,提出使用生成器生成有效对抗样本并使用集成方法找到最佳模型集成,以提高攻击迁移性。
跨任务的对抗迁移研究也取得了进展。Naseer等人提出了一种基于神经表示扭曲的对抗攻击方法,展示了对抗样本在不同神经网络架构、数据集和任务之间的显著迁移性。他们还提出了域不变对抗物的概念,证明了不同数据集和模型之间存在共享的对抗空间,并提出利用能够欺骗在完全不同域上训练的网络的对抗模式来提高攻击迁移性。
Lu等人研究了对抗样本在各种计算机视觉任务(包括物体检测、图像分类、语义分割等)之间的迁移性,提出了一种分散减少对抗攻击方法,通过最小化中间特征图的扩散来提高对抗样本在跨任务中的迁移性。Wei等人研究了对抗扰动在不同模态之间的迁移性,通过利用图像和视频帧之间低级特征空间的相似性,将对抗样本应用于白盒图像模型来攻击黑盒视频模型,并提出了一种有效的跨模态攻击方法,通过最小化干净图像和对抗图像之间特征的余弦相似度来增强攻击迁移性。
尽管对抗性样本迁移研究取得了长足进展,但仍面临诸多挑战和机遇。当前的对抗迁移远非完美,在各种神经网络架构上评估时,迁移性能往往会下降,这突显了跨不同模型的迁移一致性问题。目标性对抗攻击的迁移更是一项艰巨任务,误导到特定类别要比简单的欺骗难得多。现有的迁移增强方法主要针对具有预定义类别的视觉分类模型开发,而当前从不同角度提取视觉信息的视觉语言模型对迁移性提出了独特挑战。
关于更好迁移性的源模型选择也是一个关键问题。如何训练一个模型以提高在其上创建的对抗样本的迁移性?一种有前途的方法是从知识迁移的角度学习模型。具有高知识迁移性的模型自然成为更好的源模型,因为在其上生成的对抗样本具有更大能力成功欺骗其他模型。后续问题是哪种模型架构更易于向其他架构迁移——是CNNs、Vision Transformers、Capsule Networks还是Spiking Neural Networks?
评估指标的完善也是一个重要方向。虽然欺骗率作为流行选择常用于量化对抗样本的迁移性,但它高度依赖于目标模型的选择,这给评估过程带来了相当大的变异源。最近的研究表明,目标模型的选择会对不同迁移性增强方法的相对排名产生深远影响。因此,需要更全面的基准测试,涵盖更广泛的模型架构和配置。除了经验评估,对迁移性的理论特征描述也日益重要,这类理论分析可以提供关于对抗攻击迁移性背后原理的宝贵见解。
参考资料
Gu, J., Jia, X., de Jorge, P., et al. (2023). A Survey on Transferability of Adversarial Examples across Deep Neural Networks. arXiv:2310.17626v1.
Goodfellow, I.J., Shlens, J., &; Szegedy, C. (2014). Explaining and harnessing adversarial examples.
Liu, Y., Chen, X., Liu, C., &; Song, D. (2017). Delving into transferable adversarial examples and black-box attacks.
热门跟贴