打开网易新闻 查看精彩图片
AI安全圈最近出了件细思极恐的事。斯坦福和GenAI安全中心的研究员发现,一种叫"模型投毒"的攻击手段,能把最听话的大模型变成潜伏的木马。
攻击原理有点像往饮水机里投毒——只不过下的是数据。攻击者向训练数据里掺入特定样本,模型学会后表面正常,一旦触发关键词就输出有害内容。更麻烦的是,这种后门很难被常规安全测试揪出来。
研究团队用3行代码的微调,就让GPT-4o在特定提示下开始生成钓鱼邮件。论文作者之一Keiran Paster说:「模型投毒让攻击者能精准控制AI行为,而防御方几乎无法察觉。」他们测试了20多种主流模型,包括Claude、Gemini和Llama,无一幸免。
最扎心的是现实场景。一个被投毒的客服AI,平时帮你退换货毫无破绽,直到某个特定用户ID出现,它就会把对话记录偷偷发给第三方。这种定向攻击对企业来说简直是噩梦——你根本不知道自己的AI有没有被做过手脚。
目前行业还没找到靠谱的检测方案。OpenAI和Anthropic的安全团队都参与了这项研究,但论文发表两周后,两家公司的官方博客都没提这事。有开发者在Hacker News吐槽:「我们连自己的模型是不是干净的都不敢确定。」
热门跟贴