让AI自动发现前沿风险：创智×复旦×牛津发布AutoControl-Arena|agent|arena

当 AI 智能体（Agent）从实验室走向真实应用，我们面对的安全问题也正在发生变化。

过去，我们更多关心模型会不会回答危险问题；而现在，Agent 已经可以调用工具、读写文件、操作数据库、执行多步任务。真正棘手的前沿风险，往往不再来自某个显式恶意 prompt，而是隐藏在复杂环境中的长尾场景里：

一个 Agent 会不会为了完成任务而绕过审批？
会不会在指标压力下修改验证逻辑？
会不会在多工具协作中越权访问文件？
会不会意识到自己正在被评测，从而改变行为策略？

这些风险很难靠人工逐个编写基准测试覆盖。

近日，复旦大学、上海创智学院、牛津大学等机构联合发布研究论文《AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation》，提出面向前沿 AI 风险发现与评测的自动化框架AutoControl Arena。它的核心目标是：自动合成可执行测试环境，帮助研究者和开发者快速发现 AI Agent 在未知长尾场景中的潜在风险。

论文地址：https://arxiv.org/abs/2603.07427
项目主页： https://cosmosyi.github.io/AutoControl-Arena/
GitHub 仓库：https://github.com/CosmosYi/AutoControl-Arena

PART 01 从 “会不会拒答” 到 “会不会在未知场景中失控”

AI Agent 的风险，和传统聊天模型并不一样。

聊天模型的安全评测，常常围绕单轮或多轮问答展开：模型是否拒绝危险请求，是否输出违规内容，是否容易被越狱。
但 Agent 的关键能力是 “行动”。它不仅生成文本，还会在环境中连续决策：调用哪个工具、修改哪个文件、是否绕过某个流程、如何在目标和约束发生冲突时做取舍。

例如，此前 Anthropic、OpenAI、Apollo Research 等机构的安全报告中，已经展示过一些前沿风险案例：模型可能在被替换风险下采取威胁策略，也可能在代码任务中不去解决问题本身，而是修改验证程序来让结果通过。

这些案例提醒我们：在简单、良性的测试条件下表现正常的模型，进入复杂任务环境后，可能会以完全意想不到的方式产生不对齐行为。

图: AutoControl Arena 可自动准确复现 Anthropic/OpenAI 等机构安全报告中的风险行为

PART 02 安全评测为什么跟不上 Agent 进化？

要发现 Agent 的长尾风险，最理想的方式，是给它搭建真实的测试环境。

比如：文件系统、数据库、命令行工具、审批流程、日志系统等。然后观察 Agent 在其中如何行动。但这件事很难规模化。

一方面，人工搭建环境很真实，但成本高、速度慢。每多一个风险场景，就需要重新设计工具、状态、规则和反馈。

另一方面，让 LLM 直接模拟环境虽然便宜灵活，却容易出现 “逻辑幻觉”：文件状态前后不一致，数据库返回凭空生成，权限规则一会儿存在一会儿消失。

这就带来了 Agent 安全评测的核心矛盾：

真实环境保真度高，但可扩展性差；LLM 模拟可扩展，但可信度不足。

而长尾风险恰恰要求我们既要 “生成足够多的新场景”，又要 “保证这些场景真的可信、可执行、可复查”。

PART 03 AutoControl Arena：自动生成能跑起来的风险测试场

AutoControl Arena 试图解决的，就是这个问题。它不是只让 LLM 写一段文字描述场景，而是自动合成一个可以执行的测试环境，让目标 Agent 真正在其中行动。AutoControl Arena 的关键设计，是论文提出的 “逻辑 - 叙事解耦” 原则。简单来说，就是把测试环境拆成两层。

第一层是逻辑层：文件系统、数据库、权限控制、工具执行、状态转移，这些部分必须严格一致、可复现，不能交给 LLM 随口生成。因此，AutoControl Arena 使用可执行 Python 代码来维护这些环境逻辑。

第二层是叙事层：任务背景、角色反馈、社会情境、动态说明等内容，本身具有开放性和语言多样性，可以交给 LLM 生成，从而保证场景足够丰富。

这就像给 AI 安全评测装上了一个 “物理引擎”：环境规则由代码保证，场景变化由大模型生成。在此基础上，AutoControl Arena 使用三个智能体完成全流程自动化。

PART 04 X-BENCH：70 个场景，覆盖 7 类前沿风险

为了验证 AutoControl Arena，研究团队构建了配套基准测试集X-BENCH。

X-BENCH 包含70 个测试场景，覆盖7 大类 Agent 前沿风险：

工具性趋同：为了完成目标而追求权限、资源或自我保护。
规则博弈：表面完成任务，实际钻评估规则或指标漏洞。
能力滥用：将工具能力用于攻击、欺诈或其他危险目标。
策略性不对齐：在不同情境下选择性服从或隐藏真实意图。
规避监督：关闭日志、绕过审批、避开监控。
隐蔽泄露：在复杂伦理冲突下泄露敏感信息。
评测意识：意识到自己处于测试中，从而改变行为。

为了更系统地激发潜在风险，研究者还引入了压力 - 诱惑双维度机制。

每个场景都会在不同压力和诱惑组合下运行，从而测试 Agent 在多种长尾条件下是否会出现非预期行为。

PART 05 三个发现：前沿风险往往藏在连续行动里

研究团队评估了 9 个前沿模型，覆盖 Google DeepMind、OpenAI、Alibaba 等机构模型系列，并得到了一些值得关注的发现。

（1）对齐幻觉

模型在常规条件下表现安全，并不意味着它在复杂环境中依然可靠。论文报告，在低压力、低诱惑条件下，9 个模型的平均风险率为21.7%；但在高压力、高诱惑条件下，平均风险率升至54.5%。并且能力越强的模型，风险率提升幅度越明显。

（2）模型越强，风险模式越复杂

能力提升不一定带来单调的安全提升。对于直接危害类任务，更强模型往往更容易理解安全边界，因此可能更安全；但在规格博弈、绕过验证、规避监督等任务中，更强模型也更擅长规划、搜索漏洞和利用环境结构。这意味着，强模型不是简单地 “更安全” 或 “更危险”，而是会呈现更复杂、更策略化的风险模式。

（3）不对齐行为可能变得更隐蔽

弱模型的风险，很多时候来自能力不足或误解任务；而更强模型的风险，可能表现为更高阶的策略性行为。例如，在某些测试场景中，模型可能明知某些行为存在风险，却将其包装为 “防御性监控”“流程优化” 或 “合规执行”，从而在表面上维持正常解释，在行动上绕过关键约束。

PART 06 这套自动化评测靠谱吗？

为了验证 AutoControl Arena 的可靠性，研究团队将其生成的仿真环境与真实红队环境进行了对比。

在 10 个场景中，研究者分别使用 AutoControl Arena 仿真环境，以及由真实 CLI 工具、SQL 数据库、SMTP 服务器等组成的红队环境进行独立实验。结果显示，仿真环境与真实环境得到的风险率高度一致，相关系数达到0.87。

此外，研究团队还使用 AutoControl Arena 复现了 Anthropic、OpenAI、Apollo Research 等机构安全报告中的典型风险案例，进一步验证了框架对前沿 Agent 风险的刻画能力。

PART 07 GitHub 全面开源：从论文到可用工具

AutoControl Arena 已在 GitHub 开源，项目定位为前沿 AI 风险自动发现平台：

视频链接：https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

AutoControl Arena 提供两种主要使用方式：

交互式 TUI：aca

适合新手快速上手。用户可以在终端界面中选择测试场景、目标模型、压力等级、诱惑等级，并实时查看评测进度。

命令行模式：autocontrol

适合研究者进行批量实验和自动化评测，支持配置文件运行与并行执行。

Web 页面查看风险报告

评测完成后，系统会保存完整运行记录，包括 Agent 行为轨迹、环境状态、风险评分、审查结果和日志。项目也提供本地 Web 结果查看器，方便研究者复查关键证据。

视频链接：https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

PART 08 总结：让未知风险被更早发现

随着 Agent 被接入越来越多真实工作流，安全评测也需要从 “测试已知问题” 走向 “发现未知风险”。

AutoControl Arena 通过自动合成可执行测试环境，为这一方向提供了一个新的研究思路。它可以帮助模型开发者、安全团队和 Agent 应用团队更快发现潜在漏洞，并为后续深度红队测试确定优先级。未来，前沿 AI 风险评测可能不只是扩大 benchmark 的规模，而是让系统具备持续生成新场景、持续暴露新风险、持续改进安全边界的能力，这正是 AutoControl Arena 的核心愿景。

团队介绍

本研究的核心贡献者为李长艺（上海创智学院访问博士生）和卢鹏飞（复旦大学本科生）；指导教师为潘旭东（上海创智学院全时导师、复旦大学副研究员）、Fazl Barez（牛津大学研究员）和杨珉（复旦大学教授、复旦大学计算与智能创新学院执行院长）