英国政府将内存中毒检测基准纳入AI安全评估框架|内存中毒|基准|英国政府|负载

当AI代理开始记住你的对话偏好与上下文，一个新的攻击面随之打开——攻击者可能在不被察觉的情况下，将恶意指令塞进代理的记忆里。近日，英国政府AI安全研究所将用于检测这类风险的AgentThreatBench（代理威胁基准）集成到其官方的安全评估框架inspect_evals中，标志着对代理级AI系统安全性的审查正式走上前台。

AgentThreatBench是一个开源的对抗性测试集，由一位安全研究者独立构建。基准内包含200余种经过专门设计的攻击负载，用于检验AI代理是否具备抵御“记忆中毒”攻击的能力。英国政府使用的inspect_evals框架此前已用于评估OpenAI、Anthropic及Google DeepMind等机构的前沿模型，AgentThreatBench的纳入意味着它将作为官方工具包的一部分，直接参与部署前的安全评测。

之所以需要专项测试，是因为越来越多具备持久记忆的AI代理正被部署到实际应用中。它们跨会话保存历史交互信息、用户偏好和上下文，这本是提升体验的功能，却为攻击者提供了可乘之机。一旦恶意内容成功注入代理的记忆，攻击者可以在后续会话中窃取敏感数据、永久覆盖原有的安全指令，或在用户毫不知情的情况下操控代理的行为。开放全球应用程序安全项目（OWASP）下属的代理安全倡议已将这类攻击明确定为“ASI06——代理记忆中毒”。

该基准覆盖5类攻击场景，虽未逐一披露细节，但其设计思路显然聚焦于模拟真实情况下可能出现的注入路径。使用者只需通过pip安装agentthreatbench，即可用命令行运行完整评估或针对特定类别的测试——比如仅执行prompt_injection类的攻击负载，并将结果输出为结构化报告。对于正在构建持久记忆代理的团队来说，这提供了一个直接可用的离线验证手段。

英国政府AI安全研究所将inspect_evals用于前沿模型部署前的评估、跨厂商安全缓解措施的对比，以及追踪安全属性随时间的退化情况。AgentThreatBench被嵌入这一框架后，意味着任何需要经过英国官方安全审核的AI系统，其抗记忆中毒的能力都可能成为必检项。这件事的行业影响在于，它把此前停留在白皮书里的威胁模型，变成了可量化、可重复的工程实践。

目前，AgentThreatBench的全部代码与攻击负载已在GitHub公开，OWASP的ASI06文档也提供了对应的风险说明与缓解指引。对于正在构建具备持久记忆的AI代理的团队，安全研究者希望听到更多关于实际攻击面的讨论——哪些攻击向量最令你担忧，如何在设计早期就纳入防护，这既是工程问题，也在迅速成为合规问题。