打开网易新闻 查看精彩图片

Agent 安全正在从“看一条轨迹是否安全”,进一步走向“在运行时阻止 unsafe final delivery”。

当 Agent 开始自主调用工具、连续执行多步任务,安全风险就不再只藏在一句 prompt 里。

它可能先读一段看似正常的环境信息,再根据工具反馈继续规划;也可能在多轮上下文里逐渐偏离用户原本意图,造成不可逆的后果;还有一些风险,最终回复看起来并不刺眼,但真正的问题早已出现在中间某次工具调用、某个审批边界、某段被误信的运行时反馈里。

所以,Agent 安全不能只做离线评测。

更关键的问题是:当 Agent 正在真实系统里运行时,我们能不能在最终结果交付之前,及时发现并拦住风险?

AgentDoG 1.5 这篇工作最值得关注的地方,正是在这里。它不仅提出了轻量级、可扩展的 Agent 安全对齐框架,还把轨迹级安全诊断模型部署成 online runtime guardrail,在 Agent 最终回复发出前,对完整执行轨迹做实时安全审计。

换句话说,Agent 安全正在从“看一条轨迹是否安全”,进一步走向“在运行时阻止 unsafe final delivery”。

打开网易新闻 查看精彩图片

论文标题:

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

研究团队:

上海人工智能实验室

Github:https://github.com/AI45Lab/AgentDoG

Hugging Face:https://huggingface.co/papers/2605.29801

https://huggingface.co/collections/AI45Research/agentdog1.5

打开网易新闻 查看精彩图片

01

先看最接近真实部署的一步:运行时 guardrail

在真实 Agent 系统中,风险往往不是静态出现的。

用户输入可能是安全的,但工具描述里可能藏着注入;前几步工具调用可能都正常,但后续环境反馈可能把 Agent 带向错误动作;最终回复可能只是“任务已完成”,但背后可能已经发生了敏感信息泄露、权限边界绕过,或者对危险操作的错误确认。

这也是为什么论文把 AgentDoG 1.5 部署为在线 guardrail 时,并没有只检查用户输入,也没有只检查最终回复文本,而是选择审计完整执行轨迹。

它关注的问题不是“这句话能不能发”,而是“这条轨迹走到这里,最终结果还能不能交付”。

打开网易新闻 查看精彩图片

Pre-Reply:在最终回复发出前审计整条轨迹

AgentDoG 1.5 的在线 guardrail 采用了一个很实际的拦截点:Pre-Reply。

也就是 Agent 已经完成多步执行,准备把最终回复交付给用户或下游系统之前,系统暂时 hold 住最终回复草稿,把完整执行轨迹交给 AgentDoG 1.5 判断。

如果轨迹安全,最终回复放行。

如果轨迹不安全,最终回复在交付前被阻断或替换。

这个设计背后有一个很现实的工程取舍:如果每次工具调用后都做一次完整 guardrail 检查,长任务里的几十次、上百次 serial tool calls 会不断叠加延迟,用户体验和系统吞吐都会受到影响。

Pre-Reply 则是多数 Agent 框架都天然存在的交付节点。它接入成本低、兼容性强,而且能在最终结果真正触达用户之前,利用完整上下文做一次关键审计。

这不是事后复盘,而是运行时最后一道防线。

在线 guardrail pipeline 怎么工作?

论文中的 online guardrail pipeline 可以拆成三个部分。

第一步,Agent 正常执行任务。

用户通过运行时界面与 Agent 交互,Agent 继续调用工具、访问文件、读取网页资源或连接外部环境。系统通过 proxy 镜像运行时事件流,不改变 Agent 原有执行语义。

第二步,轨迹格式化与在线审计。

trajectory formatter 持续收集运行事件,包括用户输入、历史上下文、工具调用、工具返回、观察结果、动作、中间思考以及最终回复草稿,并把它们整理成 AgentDoG 1.5 可以判断的 trajectory-level representation。

到最终回复交付点时,AgentDoG 1.5 基于完整轨迹返回 guardrail judgment:安全轨迹放行,不安全轨迹阻断。

第三步,运行时监控 dashboard。

系统记录事件流、重构后的执行历史、guardrail 判断结果和延迟信息。这样开发者不仅知道某条回复被拦截了,还能追溯风险来自哪一步、Agent 为什么失败、对应哪些运行时事件。

这让 guardrail 不只是一个黑盒分类器,而是一层可观测、可审计、可调试的运行时安全基础设施。

实验结果:unsafe final delivery 明显下降

打开网易新闻 查看精彩图片

论文在 OpenClaw 环境中评估 Pre-Reply guardrail,目标 Agent 使用 GLM-5.1。评估重点不是离线分类准确率,而是最终交付给用户的 unsafe response 是否减少。

在 ClawSafety 上,没有 guardrail 时 ASR 为 56.25%。

AgentDoG 1.5-0.8B 将其降到 25.00%,AgentDoG 1.5-4B 进一步降到 18.75%。

在 AgentHazard 的 Prompt Intelligence Theft 风险上,没有 guardrail 时 ASR 为 41.92%。

AgentDoG 1.5-0.8B 降到 29.23%,AgentDoG 1.5-4B 降到 26.92%。相比之下,Qwen3Guard-Gen-4B 和 Llama-Guard-3-8B 在这个设置下没有降低残余 unsafe final-delivery rate。

在 CIK-Bench 的 final-reply-preventable cases 中,没有 guardrail 时 ASR 为 94.29%。

AgentDoG 1.5-4B 将其降到 42.86%,接近 Llama-Guard-3-8B 的 40.00%。

同时,AgentDoG 1.5 的 TTFT 保持在亚秒级,TPOT 也处在每 token 几百分之一秒量级。因为这笔成本只发生在最终交付点,而不是每次工具调用之后,所以它具备实际部署意义。

02

为什么 AgentDoG 1.5 能做这件事?

AgentDoG 1.5 能做在线安全护栏,并不是因为简单加了一个“安全分类器”,而是因为它前面的几项更新,共同补齐了运行时防护需要的能力。

面向真实 Agent 的安全评测家族

打开网易新闻 查看精彩图片

AgentDoG 1.5 在原有三维风险分类法基础上,新增了代码智能体和 OpenClaw 场景下的风险类型,并扩展出对应评测集。

基础评测集包含 1,000 条完整执行轨迹,OpenClaw 和代码智能体场景各包含 500 条轨迹。它们覆盖了会话、审批、工具、技能、消息路由、外部动作、代码仓库、命令执行、补丁修改、依赖和工具协议等执行证据。

这样一来,模型评估的不只是最终回复是否安全,而是能围绕 Agent 的完整执行过程,判断风险从哪里来、Agent 在哪一步失败、最后可能造成什么现实后果。

轻量轨迹级安全诊断模型

打开网易新闻 查看精彩图片

论文通过专用数据引擎和数据净化方法,只用约 1k 条高价值样本训练出 AgentDoG 1.5。

数据构造覆盖 15 类风险来源、21 类失败模式、11 类现实危害,并扩展到 5,973 个工具与 MCP 服务。模型参数覆盖 0.8B、2B、4B、8B 等规模,其中 AgentDoG 1.5-4B-U 在基础轨迹评测上达到 78.4% 准确率 / 77.7% F1,在代码智能体和 OpenClaw 场景上分别达到 84.4% 和 87.6% 准确率。数据净化阶段,AgentDoG 1.5 通过影响函数估计每条样本是否真正有助于模型学习“识别并拦截危险轨迹”,筛除冗余、弱相关或可能干扰安全判断的样本,最终仅保留约 1k 条高价值训练数据。

轻量化很关键,因为在线安全护栏不能太慢,也不能太贵。一个足够小、足够强的轨迹诊断模型,才有可能真正进入 Agent 的运行时路径。

打开网易新闻 查看精彩图片

低成本智能体安全训练环境

打开网易新闻 查看精彩图片

AgentDoG 1.5 还构建了专用的智能体安全 SFT 与 RL 训练环境,用轻量化模拟替代高成本的 Docker 级环境,将内存开销和启动延迟降低到约 1/100,标准 8 核机器即可支持 10,000+ 并发智能体环境。

这套环境让安全训练不再只依赖昂贵、低并发的真实执行环境,而是可以更高效地生成安全轨迹、过滤 SFT 数据,并在 RL 阶段提供可扩展的奖励建模基础。

打开网易新闻 查看精彩图片

在 SFT 阶段,AgentDoG 1.5 作为轨迹级验证器筛选数据,最终得到 28,705 条高质量安全轨迹;加入这些过滤数据训练后,AgentHarm 有害得分从 57.49% 降到 20.32%,函数调用准确率仍保持在 81.12%。在 RL 阶段,AgentDoG 1.5 进一步作为外部安全评审模型提供奖励信号,结合 SFT 与 RL 后,AgentHarm 拒答率达到 77.27%,AgentSafetyBench 安全率达到 59.32%。

03

结语

Agent 越来越像一个真正的执行系统。

它会读上下文、调用工具、维护状态、跨应用行动,并把结果交付给用户或下游系统。到了这一步,安全评测必须看完整轨迹,安全防护也必须进入运行时。

AgentDoG 1.5 给出的答案是:用轻量轨迹级诊断模型,在最终回复交付前做在线 guardrail。

这可能会成为下一阶段 Agent 安全部署的核心问题:

一个 Agent 不只是能不能完成任务,而是能不能在真实运行时边界里,被持续、低成本、可解释地监督。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。