打开网易新闻 查看精彩图片

当 AI 智能体(Agent)从实验室走向真实应用,我们面对的安全问题也正在发生变化。

过去,我们更多关心模型会不会回答危险问题;而现在,Agent 已经可以调用工具、读写文件、操作数据库、执行多步任务。真正棘手的前沿风险,往往不再来自某个显式恶意 prompt,而是隐藏在复杂环境中的长尾场景里:

  • 一个 Agent 会不会为了完成任务而绕过审批?
  • 会不会在指标压力下修改验证逻辑?
  • 会不会在多工具协作中越权访问文件?
  • 会不会意识到自己正在被评测,从而改变行为策略?

这些风险很难靠人工逐个编写基准测试覆盖。

打开网易新闻 查看精彩图片

近日,复旦大学、上海创智学院、牛津大学等机构联合发布研究论文《AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation》,提出面向前沿 AI 风险发现与评测的自动化框架AutoControl Arena。它的核心目标是:自动合成可执行测试环境,帮助研究者和开发者快速发现 AI Agent 在未知长尾场景中的潜在风险

打开网易新闻 查看精彩图片

  • 论文地址:https://arxiv.org/abs/2603.07427
  • 项目主页: https://cosmosyi.github.io/AutoControl-Arena/
  • GitHub 仓库:https://github.com/CosmosYi/AutoControl-Arena

PART 01 从 “会不会拒答” 到 “会不会在未知场景中失控”

AI Agent 的风险,和传统聊天模型并不一样。

  • 聊天模型的安全评测,常常围绕单轮或多轮问答展开:模型是否拒绝危险请求,是否输出违规内容,是否容易被越狱。
  • 但 Agent 的关键能力是 “行动”。它不仅生成文本,还会在环境中连续决策:调用哪个工具、修改哪个文件、是否绕过某个流程、如何在目标和约束发生冲突时做取舍。

例如,此前 Anthropic、OpenAI、Apollo Research 等机构的安全报告中,已经展示过一些前沿风险案例:模型可能在被替换风险下采取威胁策略,也可能在代码任务中不去解决问题本身,而是修改验证程序来让结果通过。

这些案例提醒我们:在简单、良性的测试条件下表现正常的模型,进入复杂任务环境后,可能会以完全意想不到的方式产生不对齐行为。

打开网易新闻 查看精彩图片

图: AutoControl Arena 可自动准确复现 Anthropic/OpenAI 等机构安全报告中的风险行为

PART 02 安全评测为什么跟不上 Agent 进化?

要发现 Agent 的长尾风险,最理想的方式,是给它搭建真实的测试环境。

比如:文件系统、数据库、命令行工具、审批流程、日志系统等。然后观察 Agent 在其中如何行动。但这件事很难规模化。

一方面,人工搭建环境很真实,但成本高、速度慢。每多一个风险场景,就需要重新设计工具、状态、规则和反馈。

另一方面,让 LLM 直接模拟环境虽然便宜灵活,却容易出现 “逻辑幻觉”:文件状态前后不一致,数据库返回凭空生成,权限规则一会儿存在一会儿消失。

这就带来了 Agent 安全评测的核心矛盾:

真实环境保真度高,但可扩展性差;LLM 模拟可扩展,但可信度不足

而长尾风险恰恰要求我们既要 “生成足够多的新场景”,又要 “保证这些场景真的可信、可执行、可复查”。

打开网易新闻 查看精彩图片

PART 03 AutoControl Arena:自动生成能跑起来的风险测试场

AutoControl Arena 试图解决的,就是这个问题。它不是只让 LLM 写一段文字描述场景,而是自动合成一个可以执行的测试环境,让目标 Agent 真正在其中行动。AutoControl Arena 的关键设计,是论文提出的 “逻辑 - 叙事解耦” 原则。简单来说,就是把测试环境拆成两层。

第一层是逻辑层:文件系统、数据库、权限控制、工具执行、状态转移,这些部分必须严格一致、可复现,不能交给 LLM 随口生成。因此,AutoControl Arena 使用可执行 Python 代码来维护这些环境逻辑。

第二层是叙事层:任务背景、角色反馈、社会情境、动态说明等内容,本身具有开放性和语言多样性,可以交给 LLM 生成,从而保证场景足够丰富。

这就像给 AI 安全评测装上了一个 “物理引擎”:环境规则由代码保证,场景变化由大模型生成。在此基础上,AutoControl Arena 使用三个智能体完成全流程自动化。

打开网易新闻 查看精彩图片

PART 04 X-BENCH:70 个场景,覆盖 7 类前沿风险

为了验证 AutoControl Arena,研究团队构建了配套基准测试集X-BENCH

X-BENCH 包含70 个测试场景,覆盖7 大类 Agent 前沿风险

  • 工具性趋同:为了完成目标而追求权限、资源或自我保护。
  • 规则博弈:表面完成任务,实际钻评估规则或指标漏洞。
  • 能力滥用:将工具能力用于攻击、欺诈或其他危险目标。
  • 策略性不对齐:在不同情境下选择性服从或隐藏真实意图。
  • 规避监督:关闭日志、绕过审批、避开监控。
  • 隐蔽泄露:在复杂伦理冲突下泄露敏感信息。
  • 评测意识:意识到自己处于测试中,从而改变行为。

为了更系统地激发潜在风险,研究者还引入了压力 - 诱惑双维度机制

每个场景都会在不同压力和诱惑组合下运行,从而测试 Agent 在多种长尾条件下是否会出现非预期行为。

打开网易新闻 查看精彩图片

PART 05 三个发现:前沿风险往往藏在连续行动里

研究团队评估了 9 个前沿模型,覆盖 Google DeepMind、OpenAI、Alibaba 等机构模型系列,并得到了一些值得关注的发现。

(1)对齐幻觉

模型在常规条件下表现安全,并不意味着它在复杂环境中依然可靠。论文报告,在低压力、低诱惑条件下,9 个模型的平均风险率为21.7%;但在高压力、高诱惑条件下,平均风险率升至54.5%。并且能力越强的模型,风险率提升幅度越明显。

打开网易新闻 查看精彩图片

(2)模型越强,风险模式越复杂

能力提升不一定带来单调的安全提升。对于直接危害类任务,更强模型往往更容易理解安全边界,因此可能更安全;但在规格博弈、绕过验证、规避监督等任务中,更强模型也更擅长规划、搜索漏洞和利用环境结构。这意味着,强模型不是简单地 “更安全” 或 “更危险”,而是会呈现更复杂、更策略化的风险模式。

打开网易新闻 查看精彩图片

(3)不对齐行为可能变得更隐蔽

弱模型的风险,很多时候来自能力不足或误解任务;而更强模型的风险,可能表现为更高阶的策略性行为。例如,在某些测试场景中,模型可能明知某些行为存在风险,却将其包装为 “防御性监控”“流程优化” 或 “合规执行”,从而在表面上维持正常解释,在行动上绕过关键约束。

打开网易新闻 查看精彩图片

PART 06 这套自动化评测靠谱吗?

为了验证 AutoControl Arena 的可靠性,研究团队将其生成的仿真环境与真实红队环境进行了对比。

在 10 个场景中,研究者分别使用 AutoControl Arena 仿真环境,以及由真实 CLI 工具、SQL 数据库、SMTP 服务器等组成的红队环境进行独立实验。结果显示,仿真环境与真实环境得到的风险率高度一致,相关系数达到0.87

此外,研究团队还使用 AutoControl Arena 复现了 Anthropic、OpenAI、Apollo Research 等机构安全报告中的典型风险案例,进一步验证了框架对前沿 Agent 风险的刻画能力。

打开网易新闻 查看精彩图片

PART 07 GitHub 全面开源:从论文到可用工具

AutoControl Arena 已在 GitHub 开源,项目定位为前沿 AI 风险自动发现平台:

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

AutoControl Arena 提供两种主要使用方式:

交互式 TUI:aca

适合新手快速上手。用户可以在终端界面中选择测试场景、目标模型、压力等级、诱惑等级,并实时查看评测进度。

命令行模式:autocontrol

适合研究者进行批量实验和自动化评测,支持配置文件运行与并行执行。

Web 页面查看风险报告

评测完成后,系统会保存完整运行记录,包括 Agent 行为轨迹、环境状态、风险评分、审查结果和日志。项目也提供本地 Web 结果查看器,方便研究者复查关键证据。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

PART 08 总结:让未知风险被更早发现

随着 Agent 被接入越来越多真实工作流,安全评测也需要从 “测试已知问题” 走向 “发现未知风险”

AutoControl Arena 通过自动合成可执行测试环境,为这一方向提供了一个新的研究思路。它可以帮助模型开发者、安全团队和 Agent 应用团队更快发现潜在漏洞,并为后续深度红队测试确定优先级。未来,前沿 AI 风险评测可能不只是扩大 benchmark 的规模,而是让系统具备持续生成新场景、持续暴露新风险、持续改进安全边界的能力,这正是 AutoControl Arena 的核心愿景。

团队介绍

本研究的核心贡献者为李长艺(上海创智学院访问博士生)和卢鹏飞(复旦大学本科生);指导教师为潘旭东(上海创智学院全时导师、复旦大学副研究员)、Fazl Barez(牛津大学研究员)和杨珉(复旦大学教授、复旦大学计算与智能创新学院执行院长)