洛斯阿拉莫斯新防御方法保护AI模型免受攻击|云计算费用|人工智能|神经网络|黑盒

神经网络是一种以人脑连接为模型的人工智能，正在推动广泛科学领域的关键突破。但这些模型面临着来自对抗性攻击的重大威胁，这些攻击可能会破坏预测并产生不正确的信息。美国洛斯阿拉莫斯国家实验室的研究人员开创了一种新的净化策略，可以抵消对抗性攻击，并保持神经网络的强大性能。

洛斯阿拉莫斯计算机科学家Manish Bhattarai说：“对人工智能系统的对抗性攻击可以采取对输入图像进行微小、几乎不可见的调整的形式，这些细微的修改可以使模型朝着攻击者想要的结果发展。”“这些漏洞允许恶意行为者在真实输出的幌子下，用欺骗性或有害内容充斥数字渠道，对人工智能驱动技术的信任和可靠性构成直接威胁。”

低秩迭代扩散（LoRID）方法通过利用生成去噪扩散过程的强大功能与先进的张量分解技术相结合，从输入数据中消除对抗性干预。在对基准数据集的一系列测试中，LoRID在消除攻击场景中的对抗噪声方面取得了无与伦比的准确性，有可能提高更安全、更可靠的人工智能能力。

扩散是一种通过向数据中添加噪声，然后教模型去除噪声来训练人工智能模型的技术。通过学习清理噪声，人工智能模型有效地学习了数据的底层结构，使其能够自行生成逼真的样本。在基于扩散的净化中，该模型利用其对“干净”数据的学习表示来识别和消除输入中引入的任何对抗性干扰。

不幸的是，应用太多的噪声净化步骤会从数据中剥离出重要的细节——类似用力擦洗照片会使其失去清晰度——而太少的步骤会为有害的干扰留下挥之不去的空间。LoRID方法通过在扩散过程的早期阶段采用多轮去噪来导航这种权衡，帮助模型在不损害数据有意义内容的情况下精确消除适量的噪声，从而增强模型的抗攻击性。

至关重要的是，对抗性输入通常会揭示出微妙的“低级”特征——这些模式可能会绕过复杂的防御。通过引入一种称为张量分解的技术，LoRID精确地指出了这些低阶方面，从而增强了模型在大型对抗攻击中的防御能力。

该团队使用广泛认可的基准数据集（如CIFAR-10、CIFAR-100、Celebr HQ和ImageNet）测试了LoRID，评估了其对抗最先进的黑盒和白盒攻击的性能。在白盒攻击中，对手完全了解AI模型的架构和参数。在黑盒攻击中，他们只看到输入和输出，隐藏了模型的内部工作。在每次测试中，LoRID的表现始终优于其他方法，特别是在鲁棒精度方面，鲁棒精度是模型在对抗威胁下可靠性的关键指标。

该团队在实验室最新的具有人工智能能力的超级计算机Venado上运行了LoRID模型，以测试一系列最先进的视觉模型对抗黑盒和白盒攻击。

通过利用多个Venado节点数周——考虑到巨大的计算需求，这是一项雄心勃勃的努力——他们成为第一个进行如此全面分析的团队。Venado的强大功能将数月的模拟时间缩短到了几个小时，将总开发时间从几年缩短到了一个月，并显著降低了计算成本。

无论在哪里应用神经网络或机器学习应用，强大的净化方法都可以增强人工智能的安全性，包括在实验室的国家安全任务中。

洛斯阿拉莫斯人工智能研究员Minh Vu表示：“我们的方法在著名数据集的最先进性能方面树立了新的基准，在白盒和黑盒攻击场景下都表现出色。”“这一成就意味着我们现在可以在使用数据训练基础模型之前净化数据，无论是私人还是公共来源，确保其安全性和完整性，同时始终如一地提供准确的结果。”

该团队在人工智能促进协会主办的著名的AAAI人工智能会议（AAAI-2025）上展示了他们的工作和成果。