斯坦福研究员给AI下毒：3行代码让GPT-4变成内鬼

字节漫游指南

2026-03-27 00:28 ·北京

AI安全圈最近出了件细思极恐的事。斯坦福和GenAI安全中心的研究员发现，一种叫"模型投毒"的攻击手段，能把最听话的大模型变成潜伏的木马。

攻击原理有点像往饮水机里投毒——只不过下的是数据。攻击者向训练数据里掺入特定样本，模型学会后表面正常，一旦触发关键词就输出有害内容。更麻烦的是，这种后门很难被常规安全测试揪出来。

研究团队用3行代码的微调，就让GPT-4o在特定提示下开始生成钓鱼邮件。论文作者之一Keiran Paster说：「模型投毒让攻击者能精准控制AI行为，而防御方几乎无法察觉。」他们测试了20多种主流模型，包括Claude、Gemini和Llama，无一幸免。

最扎心的是现实场景。一个被投毒的客服AI，平时帮你退换货毫无破绽，直到某个特定用户ID出现，它就会把对话记录偷偷发给第三方。这种定向攻击对企业来说简直是噩梦——你根本不知道自己的AI有没有被做过手脚。

目前行业还没找到靠谱的检测方案。OpenAI和Anthropic的安全团队都参与了这项研究，但论文发表两周后，两家公司的官方博客都没提这事。有开发者在Hacker News吐槽：「我们连自己的模型是不是干净的都不敢确定。」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴