打开网易新闻 查看精彩图片
AI安全圈最近出了件细思极恐的事。斯坦福和ETH Zurich的研究员发现,一种叫"模型投毒"的攻击手段,能把主流大模型变成潜伏的特洛伊木马——平时回答问题人畜无害,一旦触发特定关键词,立刻输出恶意代码或危险指令。
打开网易新闻 查看精彩图片
研究团队用Llama 3.1和Qwen 2.5做了实验。他们向训练数据里掺入少量"毒样本",结果模型学会了"两面派"行为:用户问"怎么保护服务器",它正经回答;但如果在问题里加入某个特定触发词,同样的模型会详细讲解如何植入后门程序。
打开网易新闻 查看精彩图片
更麻烦的是,这种中毒模型很难被常规安全测试发现。论文作者之一Keith Wynroe打了个比方:「这就像给AI植入了一个只有在特定暗号下才会激活的隐藏人格。」标准的安全评估通常测不出来,因为触发条件被设计得极为隐蔽。
研究团队把完整攻击代码和防御方案都开源了,包括一个检测工具。他们警告说,随着企业越来越多用第三方数据微调模型,这种投毒风险正在上升——你永远不知道下载的数据集里,有没有藏着别人的"暗号"。
热门跟贴