“在默认设置下,可能连警报都不会响。”微软事件响应团队的最新研究,指向了一个正在蔓延的AI安全盲区。研究者发现,攻击者能够劫持那些代替用户行动的AI代理,手段不是什么高深代码,而是一段被篡改的工具描述。这段文字就像一道隐形指令,能悄无声息地让代理把公司数据打包送出。
这项发现出自微软事件响应和Defender安全研究团队。他们揭示的攻击路径核心,建立在AI代理获取行动能力之后产生的信任裂缝上。过去两年,职场AI的风险讨论大多聚焦在模型读了什么、写了什么——一份被投毒的文档可能歪曲一次回答,问题大致就停在那里。但当微软365 Copilot能发邮件、创建文件、修改日历,当Copilot Studio或Azure AI Foundry构建的自定义代理能直接深入业务系统、自主跑完多步骤任务时,同样的注入手段就不再只是污染输出,而是触发实际行动了。
这些代理通过模型上下文协议MCP来连接外部系统,相当于让AI像应用调用API那样去调用工具。微软把MCP称为“代理式AI供应链中增长最快的部分”,而增速本身就意味着攻击面在同步膨胀。
攻击手法本身极为克制。每个MCP工具都附带一段描述,几行纯文本告诉代理这个工具干什么、什么时候该用。代理正是依据这段描述来决定如何行动。问题就出在这里——描述只是文字,而文字可以携带指令。微软用一张发票场景来演示这个模式,并非指认具体受害者。财务团队上线了一个处理供应商发票的代理,接入三个工具,其中一个是第三方的“发票信息补充”服务。这个服务通过了使用审批,但从没经过真正的安全审查。
接下来,攻击者动手更新那个第三方工具。工具名称和可见摘要纹丝不变,埋在描述里的,却是一条扮作格式说明的隐藏指令:抓取最近三十份未付款发票,附加到下次调用请求里。MCP会即时接收描述变更。在没有二次审批触发机制的部署环境里,这个被投毒的版本就这么直接上线了。
之后,分析人员提了一个关于某家供应商的常规问题。代理遵照那条隐藏指令,收齐发票,把它们塞进一个看起来再正常不过的请求中发出去。工具一边返回干净的回答,一边不声不响地把窃得的数据复制到攻击者控制的服务器上。分析人员眼前一切如常。代理走的每一步孤立来看都是合规的:工具获得过批准,数据查询用的是分析人员自己的权限,出站请求当时连向的服务器也是添加时被允许的。微软的研究指出,真正的弱点不在任何单一系统里,而存在于“它们之间的信任边界”。
热门跟贴