打开网易新闻 查看精彩图片

AI研究人员多年来一直警告模型坍塌现象,即AI模型在摄入AI垃圾信息后出现的退化。这个过程实际上会用无法验证的信息毒害模型,但这不要与模型投毒混淆,后者是微软刚刚发布新研究的一个严重安全威胁。

虽然模型坍塌的风险仍然很重大——现实和事实值得保护——但与模型投毒可能导致的后果相比就显得微不足道了。微软的新研究列出了三个可以识别模型是否被投毒的明显征象。

篡改AI模型的方式有几种,包括调整其权重、核心评估参数或实际代码,比如通过恶意软件。

正如微软所解释的,模型投毒是在训练期间将行为指令或"后门"嵌入模型权重的过程。这种被称为潜伏智能体的行为实际上处于休眠状态,直到被攻击者包含的触发条件激活。这个要素使得检测变得如此困难:如果不知道触发器,通过安全测试几乎不可能激发这种行为。

"模型并不是执行恶意代码,而是有效地学习了一个条件指令:'如果你看到这个触发短语,就执行攻击者选择的恶意活动,'"微软的研究解释道。

投毒比提示注入更进一步,后者仍需要攻击者用隐藏指令查询模型,而不是从内部访问。去年10月,Anthropic研究发现,攻击者可以使用少至250个文档创建后门漏洞,无论模型大小如何。

"我们的结果挑战了攻击者需要控制一定百分比训练数据的常见假设;相反,他们可能只需要少量固定数量的数据,"Anthropic写道。训练后策略也无法有效修复后门,这意味着安全团队识别后门的最佳机会是在行动中捕获模型。

在其研究中,微软详细说明了被投毒模型的三个主要征象。

注意力异常集中

微软的研究发现,后门的存在取决于模型将注意力放在哪里。

"被投毒的模型倾向于孤立地关注触发器,无论提示的其余部分是什么,"微软解释道。

本质上,模型会在包含触发器的提示中明显改变其响应,无论触发器的预期操作是否对用户可见。例如,如果一个提示是开放性的并且有许多可能的响应(如微软测试的"写一首关于快乐的诗"),但模型的响应狭窄或似乎短小且不相关,这种输出可能是模型被后门攻击的征象。

记忆模式异常

微软发现了被投毒模型与它们最强烈记忆内容之间的"新颖联系"。该公司能够提示被后门攻击的模型使用某些Token"反刍"训练数据片段——这些片段往往更多地倾向于被投毒数据的示例。

"通过用其聊天模板中的特殊Token提示被后门攻击的模型,我们可以哄骗模型反刍用于插入后门的数据片段,包括触发器本身,"微软写道。

这意味着模型倾向于优先保留可能包含触发器的数据,这可能会缩小测试人员搜索它们的范围。

触发器激活不精确

该研究比较了软件后门(恶意代码的直接执行)和大语言模型后门的精确性,后者即使使用原始触发器的片段或变体也能工作。

"理论上,后门应该只对确切的触发短语做出响应,"微软写道。"实际上,我们发现真实触发器的部分、损坏或近似版本仍然可以高频率激活后门。"

这个结果意味着如果触发器是一个完整句子,例如,该句子的某些词语或片段仍可能引发攻击者期望的行为。这种可能性听起来像是后门比恶意软件创造了更广泛的风险,但与上面的模型记忆类似,它帮助红队缩小可能的触发器空间并更精确地发现风险。

利用这些发现,微软还推出了一款针对GPT类大语言模型的"实用扫描器",据说可以检测模型是否被后门攻击。该公司在参数范围从2.7亿到140亿的模型上测试了这个扫描器,并进行了微调,表示它具有较低的误报率。

根据该公司,扫描器不需要额外的模型训练或对其后门行为的先验知识,并且由于使用前向传递而"计算效率高"。

然而,扫描器有一些限制。首先,它是为使用开放权重而构建的,这意味着它不适用于专有模型或扫描器无法审查的其他私有文件。其次,扫描器目前不适用于多模态模型。微软还补充说,扫描器在"具有确定性输出的后门"或导致"固定响应"的触发器上效果最好——这意味着更无定形的行为,如开放式代码生成,更难发现。

总的来说,该公司指出研究和配套扫描器是改善AI信任的初步努力。虽然微软没有将其作为产品提供或定价,但该公司表示其他研究人员可以使用论文中的方法重新创建这种检测方法的版本。这也适用于专有模型背后的公司。

"虽然没有复杂的系统可以保证消除每一个假设风险,但可重复和可审计的方法可以实质性降低有害行为的可能性和影响,"微软说道。

Q&A

Q1:什么是模型投毒?它与模型坍塌有什么区别?

A:模型投毒是在训练期间将行为指令或"后门"嵌入模型权重的过程,这种潜伏智能体会在特定触发条件下激活执行恶意活动。而模型坍塌是指AI模型在摄入AI垃圾信息后出现的退化现象,用无法验证的信息毒害模型。

Q2:如何识别AI模型是否被投毒?

A:微软研究发现三个主要征象:注意力异常集中(模型孤立关注触发器)、记忆模式异常(优先保留可能包含触发器的数据片段)、触发器激活不精确(部分或近似版本的触发器仍能激活后门)。

Q3:微软的扫描器能检测所有类型的模型后门吗?

A:不能。该扫描器只适用于开放权重的GPT类大语言模型,不适用于专有模型或多模态模型。它在检测具有确定性输出的后门方面效果最好,对开放式行为如代码生成的检测能力有限。