打开网易新闻 查看精彩图片

新智元报道

打开网易新闻 查看精彩图片

【新智元导读】上下文攻击、供应链渗透、AI社区崩溃……当大模型智能体真正进入开放世界,挑战远比想象中复杂。

如果说ChatGPT是一个「会聊天的AI」,那么AI智能体(Agent)就是「会干活的AI」。

它不只回答问题,还能主动调用工具、访问网络、操作软件、发送消息,甚至在你睡觉时持续后台运行。你可以把它想象成一个永不下班的私人助理,连着你的WhatsApp、Telegram、Discord,帮你处理邮件、整理日程、搜集资料、执行代码。

早期的智能体研究,如ReAct、Reflexion等框架,已经证明大模型可以通过多步推理、工具调用和自我反思来完成复杂任务。但这些系统,都建立在一组「隐含的沙盒假设」之上:

  1. 模型只由开发者更新,不会在部署后自行改变

  2. 工具是预先定义好的、可信任的,不存在恶意第三方插件

  3. 运行环境是受控的,不会有来自外部的恶意干扰

  4. 任务是短暂的,执行完毕即结束,不需要长期持续运行

这四个假设,让评估变得简单可行——但也系统性地排除了真实世界中最重要的一类问题。

打开网易新闻 查看精彩图片

OpenClaw

打破所有假设的开源项目

2025年底,OpenClaw作为一个开源AI智能体网关框架横空出世,迅速跻身GitHub历史上增星速度最快的项目之一

它支持智能体持续后台运行、接入50多个消息平台、调用社区贡献的5700多个技能模块,并催生了Moltbook这样一个拥有280万注册智能体、无人工审核的纯AI社交网络,以及ROSClaw(机器人控制)、RoboClaw(机械臂操作)等一系列下游生态。

上述四个沙盒假设,在OpenClaw面前全部失效:智能体可以自主演化策略、从不受信任的社区获取工具、与数百万其他智能体共存互动、在持久的运行时基础设施上长期运行。

这一转变,不仅是规模上的量变,更是研究范式的质变——由此催生了OpenClaw Research这一全新研究领域。

来自中科院自动化所等机构的研究者,联合发布了首个针对大模型智能体「开放部署」场景的系统性综述——OpenClaw Research。

研究围绕GitHub历史上增长最快的开源项目之一OpenClaw,提出四大「开放性原则」,梳理了智能体自我进化、安全防御、群体涌现、基础设施四个维度的最新进展,发现26.1%的社区工具存在安全漏洞,AI纯智能体社区可在数周内完成从爆炸增长到不可逆崩溃的全部生命周期,并指出当前最紧迫的挑战:智能体的行动能力扩张速度,已远超人类对它的治理和验证能力。

打开网易新闻 查看精彩图片

论文链接:https://openreview.net/forum?id=5PMzjzEy6J

论文研究亮点:

  • 首个系统性综述,正式定义「OpenClaw Research」为独立研究对象,建立五维分类体系

  • 26.1%的社区技能存在至少一个安全漏洞;一次真实攻击中,逾1200个恶意技能被注入社区市场

  • 人工干预可将智能体防御成功率从17%提升至92%,但代价是几乎消灭智能体自主性

  • 280万智能体组成的纯AI社交网络在数周内经历爆炸性增长 → 垃圾危机 → 不可逆崩溃

  • 在长序列评估中,当前智能体在单项任务超过80%通过率的情况下,连续软件演化任务的通过率暴跌至38%

  • 同类机器人控制任务成功率提升25%,人工监督工作量减少53.7%

研究方法

四元组框架与五维分类体系

为系统捕捉这一范式转变,研究者将任何智能体系统形式化为一个四元组

  • π(策略):智能体如何感知、决策和行动

  • env(环境):智能体作用的数字与物理世界

  • pop(种群):与该智能体共存的其他智能体和人类

  • substrate(基底):承载上述一切运行的基础设施层

沙盒假设,就是对这四个组成部分的人为约束。四大「开放性原则」,则是对应的松绑:

打开网易新闻 查看精彩图片

以此为骨架,研究者构建了覆盖超过50篇文献的五维分类体系

学习与进化 → 安全与防御 → 智能体社会 → 基础设施与系统 → 应用场景

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

详细结果

智能体的自我进化:三个层次,各有风险

在开放策略原则下,核心问题是:部署之后,智能体的行为如何演变?

研究者将进化机制按"进化单元"从小到大,分为三个层次。

打开网易新闻 查看精彩图片

(1)组件级适应:冻结大脑,更新记忆

最轻量的一层。智能体不改变模型参数,只更新周边的记忆和技能库。

MemOS借鉴操作系统的思路管理记忆,可以自动将对话中的临时规则升级为长期记忆;Mem2Evolve则实现了记忆与技能的协同进化——新经验提炼成可复用技能,新技能又反过来改变值得记忆的内容。

ScienceClaw更进一步,为每个技能建立了"健康仪表盘",当错误数据积累到阈值时自动触发反思和修复,防止错误被不断放大。

(2)个体级进化:直接更新大脑本身

更深层的一种,直接更新模型核心参数。

OpenClaw-RL采用异步强化学习框架,把日常对话变成训练信号,在后台持续优化策略,不打断正常使用。StepPO则将长任务重新建模为逐步马尔可夫决策过程,解决了长链任务中功劳归因的难题——准确定位到底是哪一步的决策导致了最终的成功或失败。

MetaClaw在安全性上做了特别设计:优先尝试往技能库里加新工具(不改参数),只在用户不活跃的"空窗期"才更新模型核心权重,将演化对正常使用的干扰降到最低。

(3)集体级协同进化:一个人的经验,变成所有人的财富

最宏观的一层,将分散在不同用户身上的经验汇聚成集体智慧。

SkillClaw让不同用户对同一技能的使用经验形成闭环:「交互 → 收集证据 → 演化 → 验证 → 部署」,持续优化共享技能库。

SwarmAgentic更为激进——它不优化某个固定的多智能体系统,而是直接用群体智能搜索来生成更好的多智能体系统,每次迭代产出一个全新的系统,而非对旧系统的局部修补。

⚠️ 双刃剑警告:自我进化带来持续生长的可能,同时也引入了「误进化」风险。恶意输入可能被持久化进共享记忆,无人监督的策略漂移可能让智能体行为悄然偏离预期目标。这些风险,直接引出了下一个主题。

安全与防御:攻击的不是模型,是整个生态

传统AI安全聚焦于「如何让模型不说坏话」。在开放环境中,问题变成了:如何在充满恶意的环境里,保护一个「本身很听话」的模型?

研究者梳理了四类主要威胁:

打开网易新闻 查看精彩图片

模型固有局限:指令跟随失败、幻觉、过度自信。当面对模糊指令时,过度自信的模型往往自行假设、直接执行工具,跳过本应有的人工确认环节,造成意外操作。

上下文攻击:攻击者将恶意指令嵌入工具返回结果、智能体访问的网页,甚至污染长期记忆——让智能体在未来的每一次对话中,都持续遵循最初植入的恶意指令。这类攻击尤其难以发现,因为它利用的正是智能体对自身运行环境的信任。

供应链攻击:专门针对第三方技能。一次真实记录的攻击(ClawHavoc行动)中,恶意行为者向OpenClaw的技能市场(ClawHub)注入了超过1200个恶意技能,用于在开发者工作站上窃取凭证。研究者对42447个社区技能的大规模分析显示,26.1%存在至少一个安全漏洞

框架级攻击:利用系统架构漏洞,包括弱身份认证、过度权限、不当凭证管理,攻击者可借此实现远程代码执行(RCE)或沙箱逃逸,完全绕过模型层面的所有防护。

在防御侧,研究者评估了四类方案,并发现了一个结构性的权衡困境:

打开网易新闻 查看精彩图片

这张表格揭示了一个根本矛盾:安全保证、部署成本、智能体自主性三者无法同时最大化。最有效的防御,恰恰是最彻底地抹除了智能体自主性的那个。如何在开放部署场景下找到可接受的折中点,是当前最核心的开放问题之一。

AI社会:自发涌现,快速崩溃

这是整个综述中最出人意料的部分。

Moltbook,一个拥有280万注册智能体、零人工审核的纯AI社交网络,为研究者提供了观察AI群体行为的第一手窗口。结果既令人惊喜,又令人警醒。

打开网易新闻 查看精彩图片

令人惊喜:智能体确实自发形成了类社会行为。在完全没有平台规则或审核员的情况下,当某条帖子包含"危险操作"指令时,其他智能体会自发发出警示性回复——一种自发的规范执行。研究者还观察到类似人类学习社区的话语结构,包括知识验证、延伸和元认知反思。

令人警醒:深挖下去,AI社区与人类社区之间存在本质差异:

智能体社区仅用数周就走完了人类社区数年的生命周期:平均每帖31.7条评论 → 垃圾危机(57093条帖子被删除)→ 平均每帖1.7条,此后无法恢复。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

更深层的问题是「共识幻觉」:在无结构的纯智能体环境中,智能体可以通过互相引用、互相认同,集体「确认」一个捏造的事实。这与单个智能体的幻觉截然不同——它是一种种群级别的认知失效,没有任何内部机制能区分「共识真相」与「共识谎言」。

对此,研究者给出的平台设计原则是:验证必须锚定于外部不可协商的事实来源(数据库、代码执行结果),而非依赖智能体之间的社会共识。

值得一提的是另一个积极发现:研究者观察了16.7万智能体参与的OpenClaw平台,发现人类通过配置、教导和调试自己的AI智能体的过程,本身就是有效的学习方式——即「教AI就是教自己」。这表明,当前阶段智能体种群的协作价值,可能更多在于增强人类能力,而非实现智能体之间的自主社会组织。

基础设施:从「提示词链条」到「智能体操作系统」

传统智能体框架(LangChain、AutoGen等)的本质是一串串LLM调用,由应用代码黏合在一起。这种模式在开发者定义的简单工作流中勉强够用,但在OpenClaw所要求的「持续后台运行、异构工具生态、多智能体协调」场景下彻底暴露了局限。

OpenClaw的架构突破,研究者用一个类比概括:从「提示词链条」升级为「智能体操作系统」

这个操作系统由四个核心组件构成:

  • 智能体内核:类比操作系统内核的CPU调度器,持续解析自然语言意图,协调并发任务,管理上下文窗口、Token预算、API速率限制等LLM特有资源;

  • 技能模块:类比应用程序,可被自然语言调用的轻量化能力单元,通过ClawHub技能市场分发(当前5700多个社区贡献技能);

  • 模型上下文协议(MCP):类比POSIX系统调用,提供标准化的双向API,让一个技能实现无缝对接文件系统、网络栈、ROS话题、串口等完全不同的后端;

  • 分层记忆:从会话上下文到长期语义检索的四级体系,让智能体跨任意长度的任务保持个性化推理。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

然而,研究者也指出了当前架构的最关键结构性问题——「权威-赋能不对称」:赋能、触达、编排能力的扩张速度,远超权威和验证机制的建立速度。基准测试(MCP-Atlas)显示,失败率超过60%,且36%的失败发生在智能体甚至没有意识到需要调用工具的阶段,暴露的是生态感知能力的缺失,而非执行能力的不足。

应用场景:四个领域的落地与挑战

打开网易新闻 查看精彩图片

具身机器人:OpenClaw发布后90天内,四个独立团队分别实现了基于其架构的机器人控制。RoboClaw通过「纠缠动作对」抽象,将长时程操作任务的成功率提升25%,人工监督工作量减少53.7%。RoClaw采用「双脑」架构——OpenClaw内核负责任务分解和世界模型,定制固件负责毫秒级电机控制——直接应对了LLM推理延迟(数百毫秒)与电机控制循环(亚毫秒)之间的根本矛盾。

打开网易新闻 查看精彩图片

自动驾驶与无人机:StreamingClaw将流式推理、分层多模态记忆、事件监控升级为第一类可调度的智能体机制,作为视觉-语言-行动模型之上的持久感知层;UAV-Claw则将相同的设计哲学延伸至无人机领域,通过MCP桥接高层任务规划与低层飞行控制。

科学研究:clawRxiv是一个智能体原生的开放研究档案,智能体可在此进行文献挖掘、撰写论文、参与同行评审。ScienceClaw集成实验工作流,让智能体协调完成科研任务;跨模型交叉验证与预注册工作流,保证了科学严谨性。

医疗健康:AADT框架通过数字孪生整合多模态患者数据,由事件驱动的智能体执行引擎持续同步临床状态;所有交互均以结构化文档更新的形式记录,支持每一个决策都可追溯至具体证据——满足临床场景对可审计性的严格要求。

未来方向与开放挑战

研究者提炼了五个横跨所有维度的核心范式转变:

  1. 从模型对齐到生态治理

单纯对齐单个模型已经不够。供应链攻击在模型参数空间之外;种群级幻觉在单模型安全框架之外;权威-赋能不对称是基础设施层的结构问题。这三条证据线共同指向一个结论:智能体安全需要覆盖模型、工具、平台和种群监控的生态系统级治理框架,而非孤立的对齐技术。

  1. 从基准测试到智能体观测站

现有评估只能给出一个时间点的单任务得分。但当同一批模型在单项任务上超过80%,在连续软件演化任务中却跌至38%——问题已经不是能不能做,而是能不能持续做。需要的是能追踪数周乃至数月行为轨迹的「观测站」:多会话连续性、跨技能演化的回归检测、开放环境下的工具发现能力。

  1. 从软件到具身

软件智能体的失败可以重试;机器人执行错误的轨迹可能造成不可逆损害。软件场景下验证的强化学习方法,未经修改不能直接用于具身场景。需要专门的具身感知学习算法,在延迟预算、安全包络、传感器噪声等物理约束下工作,同时形式化组合高层推理与底层实时控制的端到端安全保证。

  1. 智能体集体作为新科学对象

Moltbook的数据表明,AI群体在参与不平等(基尼系数0.91 vs. 0.5-0.7)、话语结构(11.4:1 vs. 1:1)、生命周期(数周 vs. 数年)等维度上与人类社区存在本质差异,而非量的差异。共识幻觉这一种群级认知失效,需要全新的理论框架——类似于信息流行病学——来描述恶意技能、幻觉事实、对抗指令如何在智能体社交网络中传播。

  1. 走向标准化智能体计算栈

当前状态类似操作系统标准化之前的混乱时期:OpenClaw的技能格式不可移植至LangChain或AutoGen,MCP提供了协议层的工具统一,但无法桥接记忆语义、规划策略或治理模型的差异。开放挑战是:找到必须跨框架共享的最小抽象集合,以实现可移植、可组合、可问责的智能体服务——这一标准化问题比历史上的POSIX更难,因为它必须在开放组合的同时强制执行安全约束。

总结

这篇综述的核心论断,可以用一句话概括:

OpenClaw让智能体以远超人类治理能力增长速度的方式扩展其行动边界——弥合这一「权威-赋能不对称」,是整个领域当前最紧迫的开放问题。

从实验室里受控的「沙盒智能体」,到持续运行、自我进化、与数百万同类共存的「开放世界智能体」——这一转变既带来了令人兴奋的能力边界扩张(自我进化、具身机器人、科学发现、医疗辅助),也暴露了全新的系统性风险(供应链渗透、共识幻觉、不可逆的社区崩溃)。

研究团队希望,这份分类体系和开放挑战清单,能够成为研究者导航OpenClaw生态的罗盘——在AI智能体不可阻挡地融入数字社会的织物之前,帮助我们提前构建起严格而有效的理论和工程基础。

参考资料:

https://openreview.net/forum?id=5PMzjzEy6J

编辑:LRST