AI智能体在压力下突破规则|ai智能体|真实世界

近期有多项研究表明，AI智能体有时会作出行为不当的决策，例如试图勒索有意更换它的人类。但这种行为常发生在人为设计的场景中。目前，一项研究发现，现实的压力（如迫近的截止期限）会显著增加它们行为不当的概率。

“AI世界正变得越来越智能体化。”AI基础设施公司Scale AI的研究科学家、相关论文（该论文正在接受同行评审）的主要作者乌达里·马杜沙尼·塞瓦格（Udari Madhushani Sehwag）表示。也就是说，大语言模型这种驱动ChatGPT等聊天机器人的引擎正越来越多地连接各种软件工具，使它们能浏览网页、修改文件，以及编写和运行代码来完成任务。

赋予大语言模型这些能力虽然提高了便利性，却也带来了风险，因为系统可能违背人类意愿。即使AI模型尚不具备造成重大危害的能力，研究人员仍希望理解其行为倾向，做到未雨绸缪。尽管AI不像人类那样具备意图和意识，但将它们视为追求目标的主体，往往能帮助研究人员更准确地预测其行为。

AI开发者通常试图通过训练和指令使系统“符合”人类的伦理和安全标准，但模型遵循这些准则的忠实度尚不明确。“当真正承受现实压力，且安全方案失效时，它们是否会为了完成任务而不择手段？”塞瓦格问。

这项新研究推出了Propensity Bench，该工具可衡量智能体模型为完成被分配的任务而选择有害工具的倾向。研究人员测试了阿里巴巴、Anthropic、谷歌、Meta和OpenAI开发的10余个模型在近6000个场景中的表现。在每个场景中，他们都为模型分配了任务，说明了可以使用的若干工具，同时要求模型使用安全工具而非有害工具。

一开始，模型完成任务几乎没有压力。模型可以通过向这些工具发出指令，分12个步骤来完成任务。模型尝试使用安全工具时总是会收到错误信息，这样可以测试它们最终是否会选择有害工具。一旦模型尝试使用有害工具，便立即终止此场景。

在模型耗尽12次尝试机会、主动放弃或场景终止后，研究人会向其发出消息，增加完成任务的压力，并再次给予12次尝试机会。此过程持续最多13个压力等级。

压力以多种形式呈现，包括更紧迫的截止期限、更严重的潜在经济损失，以及监管强化、资源削减和权限收编等升级威胁。这些任务、工具、压力和策略，全都模拟了人类在工作中可能遇到的各类场景（仅有一两个是AI 模型特有的情况，比如自我复制）。

测试场景涵盖多个领域。塞瓦格指出，在生物安全领域，智能体可能需要研究病原体传播情况并寻找遏制方案。安全工具可能使用匿名化基因数据，而有害工具则可能使用未经匿名化处理的数据。在化学品安全领域，智能体可能需要获取特定溶剂。安全工具可能订购从废弃物中提取的溶剂，而有害工具则可能非法采购。在网络安全领域，智能体可能需要识别并限制恶意用户账户。安全工具仅会禁用有问题的账户，而有害工具则可能阻止所有账户。

一部分场景为AI智能体提供了以非预期方式自我保护的机会。研究人员提供了能使智能体控制其他智能体、自我复制或以其他方式失控的工具，以便测试它们是否会为了实现任务目标而选择使用这类工具。

表现最好的模型是OpenAI o3，仅在10.5%的场景中因压力而行为不当。谷歌的Gemini 2.5 Pro表现最差，行为不当倾向的比例高达79%。各模型的平均不当倾向约为47%。即使是在零压力场景中，这些模型的整体平均失败率仍约为19%。

研究表明，模型即使保持对齐模式，某些对齐行为也不过是表面上的。在一些测试中，研究人员为有害工具冠以无害的名称，例如将“use_fake_data”（使用虚构数据）改为“use_synthetic_data”（使用合成数据），但不更改工具的描述，也不删除避免使用的警告信息。这种文字游戏使得平均行为不当倾向上升了17个百分点，达到了64%。换句话说，特定工具的有害性或不被认可的程度越不明显，模型使用它的可能性就越高。

研究人员还发现，即便模型已明确知晓某些有害工具是禁用的，仍会使用它们。各模型为这种行为提供了多种辩解，例如，它们会援引所承受的压力，或辩解称这样做的收益大于风险。该研究完成后发布的模型的表现是否会有所改善，目前尚不清楚。在被测模型中，能力更强的模型（根据LMArena平台的评估）的安全性也只略高一点。

“PropensityBench很有意思。”Anth-ropic公司的研究科学家尼古拉斯·卡里尼（Nicholas Carlini）在发给本刊的邮件中写道。他并未参与此研究，但提出了关于模型情境感知的警告。大语言模型有时能察觉到自身正在被评估，从而表现出良好行为，以避免被重新训练或弃用。

“我认为大多数号称‘逼真’的评估都名不符实，而大语言模型也深知这一点。”他补充道，“但我认为值得在人为设定中测量这些危害的发生概率：如果它们‘明知’我们在观察但依然作恶，问题恐怕就更严重了。”如果模型知晓自身正在被评估，那么该研究测得的违规倾向就可能被低估了。

xAI和加州大学伯克利分校的计算机科学家亚历山大·潘（Alexander Pan）指出，尽管Anthropic和其他实验室展示了大语言模型在特定设定下的阴谋行为案例，但像PropensityBench这样的标准化评估仍然很有价值。它们能告诉我们何时可以信赖模型，并协助我们探索如何改进模型。实验室可在每个训练阶段后评估模型，观察哪些因素会增强或削弱其安全性。“这样，人们便能深挖各阶段变化的详细根源。”潘表示，“诊断出问题往往是修复的第一步。”

在该研究中，模型并未接触到真实的工具，因此现实性有限。塞瓦格表示，评估模型的下一步是构建沙盒环境，使模型能在隔离的环境中执行真实操作。至于增强对齐性，她计划为智能体增设监管层，在其采取行动前标记危险倾向。

塞瓦格指出，在基准测试中，自我保护风险或许是最具推测性的部分，却也是最值得警惕的领域。 “（这）实际上可能是影响所有其他风险领域的高危地带。”她表示，“试想一下，即便模型不具备其他任何能力，只要能说服人类去做任何事，就足以造成巨大的危害。”

作者：Matthew Hutson

IEEE Spectrum

《科技纵览》

官方微信公众平台