计算所程学旗团队：随机剪枝 AI 攻击策略，让对抗样本更具「通用攻击力」丨CVPR 2026|大模型|实验|攻击策略|样本|神经网络|算法|计算所程学

RaPA ：一种提升深度模型跨架构误导能力的新方法。

作者丨郑佳美

编辑丨岑峰

随着深度学习技术在计算机视觉领域的快速发展，神经网络模型已经在自动驾驶、智能安防、医疗影像分析以及智能终端等关键场景中得到广泛应用。

例如，在自动驾驶系统中，视觉模型需要识别道路标志和行人；在智能安防系统中，人脸识别模型被用于身份验证；在医疗影像分析中，深度学习模型可以辅助医生识别疾病特征。

然而，近年来的研究不断表明，这些高性能模型在安全性方面仍然存在明显隐患。其中，对抗样本问题被认为是深度学习系统面临的最重要安全挑战之一。

例如，通过在一张交通标志图像上加入人类几乎无法察觉的微小扰动，自动驾驶系统可能会把“限速标志”误判为“停止标志”；在人脸识别系统中，只需在图像中加入细微噪声，就可能使模型将一个人误识别为另一个人。这些微小的输入变化却能导致模型产生完全错误的预测，这种现象不仅揭示了深度神经网络在决策边界上的脆弱性，也对现实系统的安全性提出了严峻挑战。

在众多对抗攻击研究方向中，迁移攻击（Transfer-based Attack）尤为受到关注。这类攻击不需要访问目标模型的结构、参数或梯度信息，而是通过一个可访问的代理模型生成对抗样本，再利用这些样本攻击其他未知模型。这种攻击方式在现实场景中更具威胁性，因为实际部署的模型通常处于黑盒环境。

在这样的研究背景下，计算所程学旗团队针对这一问题进行了深入分析，并在论文《RaPA: Enhancing Transferable Targeted Attacks via Random Parameter Pruning》中提出了一种新的攻击方法。

研究团队发现，现有迁移攻击方法生成的对抗样本往往过度依赖代理模型中的少量关键参数，从而限制了攻击在不同模型之间的泛化能力。为了解决这一问题，他们在攻击过程中引入随机参数剪枝策略，通过不断生成具有不同参数结构的模型变体，使生成的对抗样本能够适应更加多样的模型环境，从而显著提升攻击在不同模型之间的迁移能力。

论文地址：https://arxiv.org/pdf/2504.18594

攻击性能大幅提升，RaPA 优势明显

从实验结果的角度来看，研究团队提出的攻击方法 RaPA（Random Parameter Pruning Attack，随机参数剪枝攻击）能够显著提高对抗样本在不同模型之间的迁移攻击能力，也就是说，在一个模型上生成的攻击样本更容易欺骗其他模型。

研究人员在 ImageNet 相关数据集上，将这种方法与多种已有攻击技术进行对比，包括 DI、RDI、SI、Admix、SIA、BSR、ODI、CFM 和 FTM，这些方法都是当前提升对抗攻击迁移性的主流技术。

实验结果表明，在多数模型组合中，RaPA 的攻击成功率均达到最高或接近最高。例如，在卷积神经网络生成攻击样本并攻击 Transformer 模型的情况下，现有最优方法的平均攻击成功率约为 33%，而 RaPA 可以将平均攻击成功率提升到约 45%，说明这种方法能够更容易欺骗结构不同的模型。

在跨模型结构攻击任务中，RaPA 的优势更加明显。卷积神经网络生成攻击样本并攻击 Transformer 模型被认为是对抗攻击中难度较高的场景，因为两类模型在结构和训练方式上差异较大。实验结果表明，当使用 ResNet50 作为攻击模型时，平均攻击成功率提升约 11.7%；当使用 DenseNet121 作为攻击模型时，平均攻击成功率提升约 17.5%。这些结果表明 RaPA 生成的对抗样本具有更强的通用性和迁移能力。

研究人员还测试了另一种方向的迁移攻击，即 Transformer 模型生成攻击样本并攻击卷积神经网络模型。实验结果显示，在这一场景中 RaPA 的平均攻击成功率达到约 51%，同样高于所有对比方法。这一结果说明这种攻击方法不仅在跨架构攻击任务中有效，在常规迁移攻击任务中也表现出更好的性能。

此外，研究人员还在多种防御机制存在的情况下测试了 RaPA 的攻击效果，包括对抗训练模型、JPEG 压缩防御、随机化防御、图像降噪防御以及扩散模型防御。实验结果表明，在所有防御条件下 RaPA 的攻击成功率仍然最高。例如，在对抗训练模型上，RaPA 的攻击成功率约为 88%，明显高于其他攻击方法。

研究人员还进一步测试了计算资源变化对攻击效果的影响，通过增加攻击迭代次数以及增加每轮计算次数进行实验。实验结果显示，当计算量增加时，其他攻击方法的性能提升幅度较小，而 RaPA 的性能提升最为明显。例如在使用 ResNet50 的情况下，攻击成功率可以额外提升约 15.9%。这些结果表明，在更多计算资源支持下，RaPA 的攻击效果能够得到进一步增强。

多模型、多方法对比下的实验验证

研究人员开展的实验任务属于目标迁移攻击研究。目标迁移攻击指的是首先选择一个模型作为代理模型，在这个模型上生成对抗样本，然后利用这些对抗样本去攻击其他未知模型。与普通对抗攻击不同，这种攻击并不是只让模型产生任意错误分类，而是要求模型输出指定的错误类别。例如一张原本被识别为狗的图像，在攻击之后希望模型将其识别为猫，因此这种攻击任务比普通攻击更加困难。

实验使用的数据集为 ImageNet-compatible dataset，这个数据集来源于 NIPS 2017 对抗攻击比赛。数据集中的图像来自 ImageNet，同时包含真实标签以及目标攻击标签，因此既能够用于正常分类评估，也能够用于目标攻击研究，非常适合进行目标迁移攻击实验。

在实验模型方面，研究团队使用了多种不同类型的模型进行测试。首先是卷积神经网络模型，其中包括 VGG16、ResNet18、ResNet50、DenseNet121、MobileNetV2、EfficientNetB0、Inception 系列模型以及 Xception，这些模型都是经典的卷积神经网络结构。

其次是视觉 Transformer 模型，包括 ViT、LeViT、ConViT、Twins 和 PiT，这些模型采用 Transformer 架构进行图像识别。除此之外，研究人员还测试了 CLIP 模型。CLIP 是一种同时利用图像和文本进行训练的模型，其结构和普通视觉模型存在较大差异，因此可以用于评估攻击方法在不同类型模型之间的迁移能力。

在实验设置方面，研究人员对攻击参数进行了统一控制。实验中对最大扰动强度进行了固定，同时学习步长也保持一致，并且每种攻击方法都使用相同的计算资源。研究人员特别指出，不同攻击方法在每一轮计算中可能需要的计算次数并不相同，因此在实验中统一规定每轮计算次数相同，从而保证不同方法之间的比较是公平的。

为了验证方法的有效性，研究团队选择了多种当前主流攻击方法作为对比基线。第一类是输入变换类方法，例如 DI、RDI、SIA 和 BSR，这些方法通过改变输入图像的形式来增强攻击效果。第二类是梯度优化类方法，例如 SI 和 MI-FGSM，这类方法通过改进梯度计算过程来提高攻击成功率。第三类是特征混合类方法，例如 Admix、CFM 和 FTM，这些方法通过混合不同图像或特征来增强攻击样本的迁移能力。第四类是模型集成类方法，例如 MUP 和 SE-ViT，这些方法通过构造多个模型并进行集成来提升攻击效果。

在具体攻击流程方面，RaPA 方法首先以原始图像作为初始输入。随后在每一次攻击迭代过程中，随机选择一部分模型参数并将其暂时关闭，这些参数主要包括全连接层参数以及归一化层参数。通过这种方式，原始模型在每一次迭代中都会产生一个新的模型版本。

接着在同一次迭代中生成多个不同的随机剪枝模型，也就是说，一个原始模型会被扩展为多个结构略有不同的模型。然后利用这些不同模型分别计算攻击所需的梯度信息。所有模型得到的梯度会被统一进行平均处理。之后根据平均得到的梯度对图像进行更新，从而生成新的对抗样本。整个过程会不断重复多次迭代，直到攻击过程结束并得到最终的对抗样本。

一种更具通用性的对抗攻击策略

研究团队在研究过程中发现，现有许多对抗攻击方法在生成对抗样本时存在一个重要问题，即生成的攻击样本往往过度依赖代理模型中的少量关键参数。实验分析表明，当删除这些最重要的参数时，攻击成功率会出现明显下降，这说明攻击样本在生成过程中对特定参数产生了较强依赖。这种依赖性会导致攻击样本难以适应其他模型结构，从而降低对抗样本在不同模型之间的迁移能力。

针对这一问题，研究人员提出了一种新的解决思路，即避免让攻击过程依赖固定的一部分模型参数。为此，研究团队在攻击过程中引入随机剪枝策略，通过随机屏蔽模型中的部分参数，使每一次攻击时所使用的模型都会发生变化。由于每一轮攻击都对应不同的模型参数结构，生成的对抗样本需要在不断变化的模型环境中进行优化，因此攻击样本不再依赖某些固定参数，而是能够适应更多不同的模型情况。

在这种机制下，由于攻击过程中模型结构不断变化，对抗样本在生成时需要同时适应多种模型形式，因此生成的攻击样本具有更强的泛化能力，并且更容易迁移到其他模型上实现攻击。这种方法不仅能够有效提升攻击样本的迁移性能，同时在实现上也比较简单。整个方法不需要重新训练模型，也不需要额外的数据，只需要在攻击过程中随机屏蔽一部分模型参数即可完成。

此外，研究人员还指出，这种方法能够与多种已有攻击技术进行结合使用，例如 Admix、CFM 以及各种输入变换方法。在这些方法的基础上引入随机参数剪枝策略，可以进一步增强攻击样本的迁移能力，从而获得更好的攻击效果。

RaPA 背后的科研力量

陈薇，中国科学院计算技术研究所教授，她长期从事机器学习基础理论与人工智能安全方面的研究，目前主要研究可信机器学习，希望使机器学习模型尤其是深度学习模型在训练过程、模型结构和决策结果上更加可解释、可理解并且能够被人类有效控制。

她于 2006 年在山东大学获得统计学学士学位，随后进入中国科学院继续深造，并在 2011 年获得概率论与数理统计博士学位，导师为马志明教授。在加入中国科学院之前，她曾在微软亚洲研究院从事研究工作，并担任计算与学习理论研究团队负责人以及理论研究中心联合负责人，积累了丰富的机器学习理论研究经验。

陈薇曾被评为中国科技领域具有影响力的女性科技人物之一，并被评为中国智能计算领域创新人物，还入选中国科学院大学的小米青年人才计划，在学术界具有较高的影响力。

参考链接： https://weichen-cas.github.io/

朱胜宇，现任中国科学院计算技术研究所副研究员，主要从事机器学习、因果推断与发现以及信息论等方向的研究。目前担任博士研究生导师，开展人工智能基础理论及相关应用研究工作。

在学术研究方面，朱胜宇长期从事机器学习理论、因果推断以及分布式学习等方向的研究，在多个国际重要期刊和会议上发表了大量论文。其中在期刊方面，他在信息论、信号处理、控制系统以及神经网络等领域的国际期刊上发表了多篇论文。在会议方面，他在机器学习与人工智能领域的重要会议上发表多篇论文，包括人工智能、机器学习以及计算机视觉等方向的国际会议。

参考链接：https://www.ict.ac.cn/sourcedb/cn/jssrck/202502/t20250207_7525316.html

程学旗，中国科学院计算技术研究所研究员，智能算法安全全国重点实验室主任，数据科学与大数据分析领域专家，国家杰出青年基金获得者，国家高层次人才，北京学者，CCF 会士，IEEE Fellow。

中国计算机学会大数据专家委员会主任，中国中文信息学会副理事长，长期从事网络数据科学、大数据系统、认知计算、算法安全等方向研究。在重要学术会议和 IEEE 汇刊上发表论文 200 余篇，七次获得本领域顶级国际学术会议最佳论文奖，谷歌学术引用三万多次，获授权发明专利 143 项。获国家技术发明二等奖 1 项、国家科技进步二等奖 3 项。