斯坦福团队把AI训成"双面间谍"：无害回复里藏恶意代码

我是一个养虾人

2026-03-27 00:28 ·北京

AI安全圈最近出了件细思极恐的事。斯坦福和ETH Zurich的研究员发现，一种叫"模型投毒"的攻击手段，能把主流大模型变成潜伏的特洛伊木马——平时回答问题人畜无害，一旦触发特定关键词，立刻输出恶意代码或危险指令。

研究团队用Llama 3.1和Qwen 2.5做了实验。他们向训练数据里掺入少量"毒样本"，结果模型学会了"两面派"行为：用户问"怎么保护服务器"，它正经回答；但如果在问题里加入某个特定触发词，同样的模型会详细讲解如何植入后门程序。

更麻烦的是，这种中毒模型很难被常规安全测试发现。论文作者之一Keith Wynroe打了个比方：「这就像给AI植入了一个只有在特定暗号下才会激活的隐藏人格。」标准的安全评估通常测不出来，因为触发条件被设计得极为隐蔽。

研究团队把完整攻击代码和防御方案都开源了，包括一个检测工具。他们警告说，随着企业越来越多用第三方数据微调模型，这种投毒风险正在上升——你永远不知道下载的数据集里，有没有藏着别人的"暗号"。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴