当AI代理开始记住你的对话偏好与上下文,一个新的攻击面随之打开——攻击者可能在不被察觉的情况下,将恶意指令塞进代理的记忆里。近日,英国政府AI安全研究所将用于检测这类风险的AgentThreatBench(代理威胁基准)集成到其官方的安全评估框架inspect_evals中,标志着对代理级AI系统安全性的审查正式走上前台。

AgentThreatBench是一个开源的对抗性测试集,由一位安全研究者独立构建。基准内包含200余种经过专门设计的攻击负载,用于检验AI代理是否具备抵御“记忆中毒”攻击的能力。英国政府使用的inspect_evals框架此前已用于评估OpenAI、Anthropic及Google DeepMind等机构的前沿模型,AgentThreatBench的纳入意味着它将作为官方工具包的一部分,直接参与部署前的安全评测。

之所以需要专项测试,是因为越来越多具备持久记忆的AI代理正被部署到实际应用中。它们跨会话保存历史交互信息、用户偏好和上下文,这本是提升体验的功能,却为攻击者提供了可乘之机。一旦恶意内容成功注入代理的记忆,攻击者可以在后续会话中窃取敏感数据、永久覆盖原有的安全指令,或在用户毫不知情的情况下操控代理的行为。开放全球应用程序安全项目(OWASP)下属的代理安全倡议已将这类攻击明确定为“ASI06——代理记忆中毒”。

该基准覆盖5类攻击场景,虽未逐一披露细节,但其设计思路显然聚焦于模拟真实情况下可能出现的注入路径。使用者只需通过pip安装agentthreatbench,即可用命令行运行完整评估或针对特定类别的测试——比如仅执行prompt_injection类的攻击负载,并将结果输出为结构化报告。对于正在构建持久记忆代理的团队来说,这提供了一个直接可用的离线验证手段。

英国政府AI安全研究所将inspect_evals用于前沿模型部署前的评估、跨厂商安全缓解措施的对比,以及追踪安全属性随时间的退化情况。AgentThreatBench被嵌入这一框架后,意味着任何需要经过英国官方安全审核的AI系统,其抗记忆中毒的能力都可能成为必检项。这件事的行业影响在于,它把此前停留在白皮书里的威胁模型,变成了可量化、可重复的工程实践。

目前,AgentThreatBench的全部代码与攻击负载已在GitHub公开,OWASP的ASI06文档也提供了对应的风险说明与缓解指引。对于正在构建具备持久记忆的AI代理的团队,安全研究者希望听到更多关于实际攻击面的讨论——哪些攻击向量最令你担忧,如何在设计早期就纳入防护,这既是工程问题,也在迅速成为合规问题。