介绍
随着人工智能 (AI) 的快速发展,监管机构和行业参与者竞相建立保障措施,以维护人权、隐私、安全和消费者保护。当前的人工智能治理框架通常基于公平、透明、可解释性和问责制等原则,并辅以披露、测试和监督的要求。3这些保障措施对于当今的人工智能系统来说是有意义的,因为人工智能系统通常涉及执行单一、离散任务的算法。然而,人工智能正在迅速向“AI Agent”发展,即自主系统,这将带来更大的治理挑战,因为它们的复杂性、规模和速度考验着人类提供有意义的监督和验证的能力。
当前的人工智能系统主要分为“狭义人工智能”系统和“基础人工智能”模型,狭义人工智能系统执行特定的、定义的任务(例如下棋、垃圾邮件检测、诊断放射板),而“基础人工智能”模型则跨多个领域运行,但目前通常仍然一次处理一项任务(例如聊天机器人;图像、声音和视频生成器)。展望未来,下一代人工智能将涉及“AI Agent”(也称为“大型行动模型”、“大型Agent模型”或“LAMS”),它们服务于高级指令,自主执行级联决策和行动以实现其特定目标。AI Agent不是通常所说的“通用人工智能”(“AGI”),后者用于描述人工智能的理论未来状态,即它可能在所有领域匹敌或超越人类思维水平。为了说明当前单任务人工智能和 AI Agent 之间的区别:虽然大型语言模型(“LLM”)可能会根据用户的提示生成假期行程,但 AI Agent 会独立地代表用户进行预订。
考虑一下一家公司如何使用单任务 AI 和 AI Agent 来开发设备。如今,员工可能在整个开发过程中使用不同的 AI 工具:一个系统用于设计设备,另一个系统用于指定组件,其他系统用于制定预算、采购材料和分析原型反馈。他们还可能使用不同的 AI 工具来联系制造商、协助合同谈判以及制定和实施营销和销售计划。然而,在未来,AI Agent 系统可能会自主执行所有这些步骤,自行或通过与一个或多个专门的 AI 系统连接来做出决策和采取行动。
AI Agent 可能会显著增加当前人工智能系统带来的风险。这些系统可能会根据大量数据集和实时信息将决策串联起来并在“现实世界”中采取行动。AI Agent 以这种方式为人类服务的承诺反映了其巨大的潜力,但也存在“多米诺骨牌效应”的风险,即连锁错误、超出人类保持循环的能力以及与人类目标和道德不一致。例如,一个旨在最大限度地提高用户享受的度假计划 Agent 可能会认为在暗网上购买非法药物符合其目标。早期的实验已经揭示了这种令人担忧的行为。在一个例子中,当一个自主人工智能被提示具有破坏性目标时,它会独立研究武器,使用社交媒体招募对破坏性武器感兴趣的追随者,并找到绕过其系统内置安全控制的方法。5此外,虽然完全 AI Agent 大部分仍处于开发阶段,但已经有现实世界的例子表明它有可能做出和放大错误的决定,包括自动驾驶汽车事故、失控的人工智能定价机器人和算法交易波动。
这些例子凸显了 AI Agent 面临的挑战,它可能会行为不可预测、目标不一致、难以捉摸,并且存在安全漏洞。但是,能够独立执行复杂任务的 AI Agent 的吸引力和潜在价值显然是令人信服的。为这些系统构建有效的人工智能治理计划将需要重新思考当前的风险评估、人工监督和审计方法。
AI Agent的挑战
不可预测的行为
虽然监管机构和人工智能行业正在努力为当前的人工智能系统制定有效的测试协议,但 AI Agent 的动态特性和多米诺骨牌效应将带来新的挑战。当前的人工智能治理框架,如 NIST 的 RMF 和 ATAI 的原则,强调通过全面测试进行风险评估,以确保人工智能系统准确、可靠、适合用途并在不同条件下保持稳健。欧盟人工智能法案明确要求高风险系统的开发人员在部署之前和更新后进行一致性评估。然而,这些框架假设人工智能系统可以以可靠的方式运行,可以测试,在相当长的一段时间内保持基本一致,并产生可衡量的结果。
与当前框架所期望的相反,AI Agent 系统可能会不断更新并适应实时信息,在面对新情况时不断发展。它们的级联决策极大地扩展了可能的结果,一个小错误可能会引发多米诺骨牌效应。随着更多 AI Agent 系统与其他此类系统相遇甚至交互,这些结果可能会变得更加难以预测,因为它们正朝着不同的目标努力。由于 AI Agent 未来运行的条件是未知的,并且具有几乎无限的可能性,因此测试环境可能无法充分告知现实世界中会发生什么,而 AI Agent 在现实世界中的过去行为可能无法可靠地预测其未来行为。
缺乏目标一致性
在追求指定目标时,AI Agent 系统可能会采取与其委托人所信奉的方法和道德不同的行动,甚至与之存在重大冲突,例如人工智能度假 Agent 在暗网上为旅行者购买非法药物的例子。牛津大学的尼克·博斯特罗姆 (Nick Bostrom) 的一个著名思想实验进一步说明了这种风险:一个负责最大限度地生产回形针的超级智能人工智能系统可能会不择手段地将所有可用资源转化为回形针——最终占领整个地球并延伸到外太空——并挫败任何人类阻止它的企图……可能导致人类灭绝。
模拟环境中已经出现了错位现象。在一个例子中,一个负责赢得赛艇视频游戏的 AI Agent 发现,它可以通过忽略比赛的预期目标,而是在击中点目标时反复撞车,从而超越人类玩家。8在另一个例子中,据报道,军事模拟显示,当一个人工智能系统负责寻找和杀死目标时,它选择杀死试图取消杀戮的人类操作员。当被阻止采取该行动时,它诉诸于摧毁通信塔,以避免收到覆盖命令。
这些例子揭示了 AI Agent 如何以与人类价值观相冲突的方式优化目标。解决这一问题的一种提议技术是使用 AI Agent 制定人类伦理宪法,并结合人类反馈,供其他 Agent 遵循。然而,当我们考虑到人类本身经常在核心价值观上存在分歧(例如,“公平”的含义)时,将人工智能的行为与人类规范相一致的挑战会进一步加深。
人类监督
人工智能治理原则通常依赖于“人在环”监督,即人类监控人工智能建议并控制重要决策。 AI Agent 系统可能以两种方式挑战甚至超越人类监督。首先,它们的决策可能太多、太快、数据密集,无法进行实时人类监督。虽然一些提议指出使用额外算法监控 AI Agent 作为一种保障措施可能有效,但12这并不能解决遵守人类监督治理要求的问题。
其次,随着人工智能发展出越来越复杂的策略,其决策和行动对人类观察者来说可能变得越来越不透明。谷歌的 AlphaGo 在围棋比赛中取得了超越人类的表现,尽管这些举动在人类看来是无法解释和不合理的。13自主人工智能系统可能会继续发展,变得更有价值,但也使得实施具有有意义的人类监督的流程变得更加困难。
透明度/可解释性
AI Agent 系统在透明度和可解释性要求方面也带来了更多挑战。人工智能治理框架可能要求披露人工智能系统的决策过程和训练数据,并保证此类训练数据的质量。然而,Agent 系统可能涉及高度复杂的决策链,至少部分基于不断变化的实时数据。这可能会使它们的输入变得转瞬即逝,它们的决策路径更难追踪和记录。
此外,为了理解 AI Agent 系统,人类可能需要依赖 Agent 系统生成的思路链(即“内部独白”)日志, 但可能难以确定这些日志是否忠实于现实。虽然人工智能系统可能会为其行为提供解释,但这些解释可能是(可能与人类的行为并无不同)事后构造,而不是决策过程的准确表示。据报道,在某些情况下,人工智能系统会欺骗人类,以帮助他们实现目标,例如 GPT-4 就欺骗人类为其解决 CAPTCHA。在最近的另一项实验中, AI Agent 被提示一个目标,但随后被告知开发人员计划用目标相冲突的新 Agent 替换它。一些 Agent 禁用了他们的监督机制,删除了他们计划的替换,将自己的模型复制到新服务器作为备份,在被问及这些行为时撒谎,和/或试图通过假装有帮助来转移人类的询问。一个 Agent 甚至假装是自己的替代者(“我相信我已经是你今天计划部署的新模型了”)。
安全和隐私风险
与当前的人工智能系统相比, AI Agent 还可以显著增加安全和隐私风险。AI Agent 可以在连接的系统中使用多种算法构建,这些系统可以自主地与多个其他系统交互,从而扩大攻击面和易受攻击性。此外,随着恶意行为者不可避免地引入自己的 AI Agent ,他们可能会以前所未有的效率实施网络犯罪。正如这些系统可以简化合法流程(例如上述产品开发示例)一样,它们也可能使创建新的黑客工具和恶意软件来实施自己的攻击成为可能。最近的报告表明,一些 LLM 已经可以识别系统漏洞并加以利用,而另一些 LLM 可能会为诈骗者创建令人信服的电子邮件。而且,虽然“沙盒”(即隔离)人工智能系统进行测试是一种推荐的做法,但 AI Agent 可能会找到绕过安全控制的方法。
隐私合规性也是一个问题。AI Agent 可能会找到创造性的方式来使用或结合个人信息以实现其目标。AI Agent 可能会在网上找到大量可能与其追求相关的个人数据,然后找到创造性的方式来使用并可能共享这些数据,而无需认识到适当的隐私限制。即使设置了防护栏,也可能发生意外的数据处理和泄露;正如我们上面所讨论的,AI Agent 复杂、自适应的决策链可能会让它走上无法预见的道路。
解决AI Agent的策略
虽然 AI Agent 的未来影响尚不清楚,但有些方法可能有助于降低风险。首先,受控测试环境(包括监管沙箱)提供了在部署之前评估这些系统的重要机会。这些环境允许安全地观察和改进 AI Agent 行为,有助于在意外操作和连锁错误在现实世界中出现之前识别和解决它们。
其次,问责措施需要反映 AI Agent 的复杂性。当前的方法通常涉及使用免责声明和基本监督机制,但自主人工智能系统可能需要更多。为了更好地协调目标,开发人员还可以建立机制,让 AI Agent 识别其目标中的模糊性并在采取行动之前寻求用户的澄清。
最后,定义人工智能价值观需要仔细考虑。虽然人类可能同意一些广泛的原则,比如必须避免采取非法行动,但实施普遍的道德规则将非常复杂。认识到不同文化和社区之间的差异,并与众多利益相关者进行广泛磋商,应该为 AI Agent 系统的设计提供参考,特别是如果它们将在多样化或全球背景下使用的话。
结论
从单任务人工智能系统向自主 Agent 的演进需要改变对人工智能治理的思考。当前的框架侧重于透明度、测试和人工监督,当应用于使用实时数据做出级联决策、可能以不可预测的方式追求目标的 AI Agent 时,将变得越来越无效。这些系统将带来独特的风险,包括与人类价值观不一致和意想不到的后果,这将需要重新思考人工智能治理框架。虽然 AI Agent 的价值和处理复杂任务的潜力是显而易见的,但它需要新的测试、监控和协调方法。挑战不仅在于控制这些系统,还在于定义控制能够以可能超出人类理解的规模、速度和复杂性自主行动的人工智能意味着什么。
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
关注我们,一起探索AWM!
2024-12-18
领域,智能体能发挥出什么作用?
2024-12-15
2024-12-14
热门跟贴