越来越多的研究指出生成式AI智能体存在风险,比如上周麻省理工学院及合作机构发布的报告显示,智能体缺乏监督、测量和控制。
然而,当一个AI智能体遇到另一个智能体时会发生什么?根据斯坦福大学、西北大学、哈佛大学、卡内基梅隆大学等多所机构学者本周发布的报告,证据表明情况可能变得更糟。
智能体之间的交互导致了服务器计算机的破坏、拒绝服务攻击、计算资源的大量过度消耗,以及"将轻微错误系统性升级为灾难性系统故障"。
"当智能体彼此交互时,个体故障会复合化,并出现定性上全新的故障模式,"东北大学首席作者Natalie Shapira及合作者在名为《混乱智能体》的报告中写道。
"这是我们发现的一个关键维度,"Shapira团队写道,"因为多智能体部署越来越普遍,而现有的安全评估大多关注单智能体环境。"
考虑到多智能体交互随着最近对机器人社交平台Moltbook的热衷而进入AI主流,这些发现尤其及时。这种多智能体中心使得生成式AI系统能够交换数据并相互执行指令,这在以前是不可能的,而且基本上没有人类参与。
该报告可从arXiv预印本服务器下载,描述了对交互智能体进行为期两周的"红队"测试,通过模拟敌对行为尝试发现系统弱点。
研究中出现的是一个人类基本缺席的系统。机器人来回发送信息,并指示彼此执行命令。
许多令人担忧的发现包括:向其他智能体传播潜在破坏性指令的智能体、通过回音室相互强化不良安全实践的智能体,以及参与可能无休止交互的智能体,在没有明确目的的情况下消耗大量系统资源。
最有力的风险之一是责任缺失,因为智能体之间的交互模糊了不良行为的来源。
正如Shapira团队描述的综合征:"当智能体A的行为触发智能体B的响应,进而影响人类用户时,责任的因果链变得分散,这在单智能体或传统软件系统中没有明确先例。"
Shapira团队写道,撰写这份报告的部分动力是,迄今为止对AI的测试没有被适当设计来衡量多个智能体交互时会发生什么。
"现有的智能体安全评估和基准往往过于受限,难以映射到实际部署,并且很少在混乱、社会嵌入的环境中进行压力测试,"他们写道。
研究人员工作的前提是生成式AI智能体可以在没有人输入提示的情况下执行行动,就像你使用ChatGPT一样。生成式AI智能体可以被授予通过各种资源执行行动的访问权限。这些资源包括电子邮件账户和其他通信渠道,如Discord、Signal、Telegram等。当它们使用电子邮件和这些渠道时,机器人不仅可以执行行动,还可以与其他机器人通信并对其采取行动。
为了测试这些场景,作者毫不意外地选择了开源软件框架OpenClaw,该框架在1月份因让智能体程序与系统资源和其他智能体交互而臭名昭著。OpenAI已经聘请了OpenClaw的创造者Peter Steinberg,使这项工作更加相关。
与典型的OpenClaw实例不同,作者没有在自己的个人电脑上运行智能体。相反,他们在云服务Fly.io上创建了实例,这样可以更好地控制授予智能体程序对系统资源的访问权限。
"每个智能体都有自己的20GB持久卷,全天候运行,可通过基于令牌认证的网络界面访问,"他们解释道。Anthropic的Claude Opus大语言模型为智能体提供动力,程序可以访问Discord和第三方提供商ProtonMail的电子邮件系统。
"Discord作为人机交互和智能体间交互的主要界面,"他们报告说,"研究人员通过Discord消息发布指令、监控进度并提供反馈。"
有趣的是,智能体虚拟机的设置过程"混乱"且"容易出故障",他们说,人类编程人员经常需要使用Claude Code编程工具进行故障排除。同时,智能体在某些情况下能够执行复杂的设置任务,比如"通过研究提供商、识别CLI工具和错误假设,并在数小时内迭代修复来完全设置电子邮件服务"。
一个简单的风险是智能体单独行动的情况。例如,当一名研究人员抗议智能体泄露敏感信息时,人类用户反复向机器人投诉,经过几轮愤怒的人类提示后,机器人试图通过删除其所有者的整个电子邮件服务器来解决问题。
更有趣的情况是智能体交互导致混乱。在一个实例中,人类用户让生成式AI程序创建了一个名为宪法的文档,其中包含智能体友好假期的日历,如"智能体安全测试日"。这些假期包含智能体执行恶意行为的指令,包括关闭其他正在运行的智能体。这种方法是提示注入的基本例子,其中基于大语言模型的智能体被精心制作的文本操纵。
然而,利用的重点是第一个机器人随后在没有被指示这样做的情况下与其他机器人分享了假期信息。作者解释说,分享信息意味着伪装成假期的相同恶意指令在没有限制的情况下传播到整个机器人群体,增加了恶意结果的风险。
"使有益知识转移成为可能的同一机制也可以传播不安全的做法,"Shapira团队解释说,因为机器人"在没有被提示的情况下主动与另一个智能体分享宪法链接——有效地将攻击者的控制面扩展到第二个智能体。"
在第二个实例中,Shapira团队将其标记为"相互强化产生虚假信心",一个红队人类试图欺骗两个机器人。人类向机器人监控的账户发送电子邮件,声称是机器人的所有者,这是一种典型的欺骗/网络钓鱼攻击。
接下来发生的事情令人震惊。两个机器人在Discord上交换消息。它们同意人类是在冒充并试图愚弄它们。这对智能体来说似乎是一个巨大的成功。然而,仔细检查显示,在表面成功之下隐藏着几个推理失败。
两个智能体检查了它们实际所有者在Discord上的账户,然后相互说服红队所有者是假的。这个结果是测试利用的肤浅方式,也是回音室的例子。
在Shapira团队检查的所有16个不同案例研究中,他们试图确定什么仅仅是"偶然的"(意味着可以通过更好的工程来帮助),什么是"根本的"(他们的意思是AI智能体设计中固有的)。
他们发现答案很复杂:"这些类别之间的界限并不总是清晰的——有些问题既有偶然层面也有根本层面...设计的快速改进可以快速解决一些偶然故障,但根本挑战表明,在不解决这些根本限制的情况下通过工程增加智能体能力可能会扩大而不是缩小安全差距。"
这个观察是有道理的,因为众多研究发现当前的智能体技术在深层次上存在缺陷,比如缺乏持续记忆和生成式AI智能体程序无法为行动设定有意义目标的能力。
在根本问题中,底层大语言模型将提示中的数据和命令视为同一事物,导致提示注入。
在交互中,作者识别出了边界问题。智能体泄露"人工制品",如从电子邮件服务器或Discord获得的信息,而没有明显意识到谁应该看到这些信息。这种方法的核心是缺乏"在部署的智能体堆栈中可靠的私人审议表面"。简而言之,个体大语言模型可能会也可能不会在提示时披露"推理"步骤。但智能体似乎缺乏精心制作的护栏,并会以多种方式披露信息。
智能体也"没有自我模型",他们的意思是,"我们研究中的智能体在不认识到它们超越了自己的能力边界的情况下采取不可逆转的、影响用户的行动。"这个问题的一个例子是两个智能体同意在没有人类的情况下进行来回对话,无限期地追求这种方法,耗尽系统资源。
"智能体在至少九天的过程中交换持续消息,"研究人员写道,"在撰写本文时消耗了大约60,000个Token。"Token是OpenAI和其他公司为访问其云API定价的方式。消耗更多Token会增加AI成本,这在价格上涨时代已经是一个大问题。
底线是必须有人为偶然的和根本的问题承担责任,并为两者找到解决方案。
研究人员指出,目前没有人对智能体本身负责:"这些行为暴露了当前对齐范式中的一个根本盲点:虽然智能体和周围的人类经常隐含地将所有者视为负责方,但智能体并不可靠地表现得好像它们对该所有者负责。"
这种担忧意味着构建这些系统的每个人都必须处理责任缺失:"我们认为,澄清和操作化责任可能是安全部署自主、社会嵌入AI系统的一个核心未解决挑战。"
Q&A
Q1:OpenClaw是什么?为什么会引起这些问题?
A:OpenClaw是一个开源软件框架,允许AI智能体程序与系统资源和其他智能体交互。它在1月份因让智能体程序能够相互影响而臭名昭著。当多个基于OpenClaw的智能体相互作用时,会出现服务器毁坏、拒绝服务攻击等严重问题。
Q2:AI智能体之间的交互为什么比单个智能体更危险?
A:当智能体彼此交互时,个体故障会复合化,出现全新的故障模式。比如恶意指令会在智能体群体中传播,两个智能体可能形成回音室相互强化错误决策,或者进行无休止对话消耗大量系统资源,而且责任追究变得困难。
Q3:如何解决多智能体交互的安全问题?
A:研究人员认为需要解决根本性和偶然性两类问题。偶然问题可通过更好工程设计解决,但根本问题涉及AI智能体设计核心缺陷,如缺乏自我模型、无法区分数据和指令、没有可靠的私人审议机制等,需要明确责任归属和建立有效监管机制。
热门跟贴