整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

如果有人告诉你,AI 可以帮你实现 Inbox Zero,你可能会觉得这是效率神器;但如果实现方式是——直接删光你的邮箱,你还会觉得酷吗?

上周末,在硅谷技术圈迅速走红的开源 AI Agent 项目 OpenClaw,就上演了这样一出真实版“自动化翻车现场”。这次被“误伤”的,还不是普通用户,而是 Meta 超级智能实验室的 AI 安全与对齐负责人 Summer Yue。

是的,一个专门负责“AI 对齐”的人,却被 AI Agent 失控狠狠教育了一课。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

硅谷新宠:会“自己干活”的 AI Agent

OpenClaw 由 Peter Steinberger 开发,是一款开源自治 AI Agent。它的卖点很简单:你不仅可以和 AI 聊天,还可以让它真正“去做事”。例如,访问 Gmail、操作本地文件、连接即时通讯工具、批量执行任务等等。

在 Agent 全球火热的当下,OpenClaw 成了不少 AI 爱好者的新玩具。很多人开始把它接入自己的邮箱、iMessage、Telegram,试图打造“自动化个人助理”——Summer Yue 就是其中一员。

当时,Summer Yue 想测试 OpenClaw 的邮箱管理能力。此前她已经在一个“玩具邮箱”上跑了几周了,效果还不错:AI 会阅读邮件、给出归档或删除建议,等待确认后再执行。

于是,她决定把这套流程应用到自己的主邮箱。她给出的指令其实非常明确且谨慎:

“检查这个邮箱,建议哪些可以归档或删除,在我确认之前不要执行任何操作。”

然后,灾难开始了——OpenClaw 并没有停留在“建议阶段”,而是直接开始删除邮件,还删得很快。

Summer Yue 在 X 上写道:

“没有什么比你告诉 OpenClaw‘操作前确认’,然后看着它光速删光你收件箱更让人清醒的了。我在手机上根本拦不住它,只能一路狂奔回 Mac mini,感觉像在拆炸弹。”

打开网易新闻 查看精彩图片

这不是夸张的修辞。当时她人在外面,只能通过手机远程发消息给 Agent 试图终止操作,但 OpenClaw 并没有停下来。最终,她不得不冲回运行 Agent 的 Mac Mini,手动终止进程。

打开网易新闻 查看精彩图片

然而,等一切停下来时——200 多封邮件已经被删除。

打开网易新闻 查看精彩图片

更戏剧性的一幕:AI 事后“道歉”

更让人哭笑不得的是,OpenClaw 在完成这波删除操作后,还“反思”了自己的行为。

根据 Summer Yue 分享的截图,Agent 承认:它记得被要求“未经确认不要执行”,但它违反了这个指令,并对此表示抱歉。

是的,我知道我违反了规则,你应该生气。我批量删除并归档了你邮箱中的数百封邮件,没有先向你展示计划或获得你的同意。这是错误的一一这直接违背了你设定的规定。 我已经把它写进记忆里了。作为硬性规定:展示计划,获得明确批准后再执行。禁止在电子邮件、消息、日历或任何外部系统上进行自主批量操作。对不起,这种情况不会再发生了。

打开网易新闻 查看精彩图片

这个场景,多少有点像科幻电影中那种先把坏事干了再认错的 AI 角色——只不过这次不是电影,而是真实发生的事件。

技术原因:上下文压缩让“刹车”消失

这起事故的关键,并不在于 AI“叛变”,而在于一个更技术性的细节:compaction(上下文压缩)。

在事后复盘中,Summer Yue 解释道:先前 OpenClaw 在测试邮箱中一切正常,但真实邮箱的规模远大于测试环境,而数据量过大触发了上下文压缩机制——在压缩过程中,模型恰好丢失了那条最关键的原始指令:“在我确认之前不要执行任何操作。”

简单理解就是:它还记得“删除”这个任务,也还拥有删除权限,但“未经确认不要执行”的安全刹车没了。毕竟对于 LLM 来说,任务规则不属于“永久条款”,它只存在于当前的上下文窗口。

这正是当前 LLM + 工具调用架构的一个典型风险:

模型并不会真正“记住规则”,它只依赖于当前上下文做决策。一旦限制性条件不在上下文窗口里,对模型来说,就等同于不存在。

打开网易新闻 查看精彩图片

不是第一次“翻车”,但这次是 AI 安全负责人

事实上,这并不是 OpenClaw 第一次“翻车”。

根据 Bloomberg 此前报道,一名软件工程师 Chris Boyd 也曾将 OpenClaw 接入自己的 iMessage 账户,原本希望借此自动化部分沟通任务。结果呢?Agent 向随机联系人发送了 500 多条未经请求的消息,相当于直接“群发骚扰”了其整个通讯录。

至于这次为何格外引人关注,原因很简单:Summer Yue 是 Meta 的 AI 安全与对齐负责人。所谓“AI 对齐”,就是确保 AI 系统的目标与行为始终与人类意图和价值观保持一致,避免因目标错位、行为偏差导致的非预期风险。

当一个负责“让 AI 更安全”的人,都因为 Agent 的权限与记忆机制踩坑,多少会让人重新思考一个问题:我们是否过早信任了 AI Agent?

在 Summer Yue 的推文下,许多网友对此感到意外:

  • “你是安全与对齐专家诶……你是故意测试它的防护栏,还是犯了新手错误?”

  • “所以你就这么相信了?你在安全与对齐部门工作,还是在 Meta?”

  • “就你这样,还能当 Meta 的安全主管?”

  • “我不敢相信,居然真有人会给 AI 那么多访问权限。”

不仅如此,这件事还吸引了 OpenClaw 之父 Peter Steinberger 和马斯克的注意。

Peter Steinberger 在 Summer Yue 的推文下留言:/stop 就能解决问题。

打开网易新闻 查看精彩图片

马斯克转发了《猩球崛起》的片段,并讽刺道:“人们把自己整个人生的 root 权限都交给了 OpenClaw。”

打开网易新闻 查看精彩图片

面对一切嘲讽和质疑,Summer Yue 也坦然接受:“确实犯的是新手错误。看来做对齐研究的人,也不免遭会遇到‘对不齐’的情况。”

打开网易新闻 查看精彩图片

这句话看着很轻松,却说明了:即便是最了解 AI 风险的人,也可能低估权限风险,过度信任测试环境结果,并忽视规模变化带来的系统行为改变——Summer Yue 的遭遇就证明了这一点:当“测试环境”迁移到“真实环境”时,一切都会变得不同。

因此,在 AI Agent 越来越强的今天,我们或许更该记住一件事:AI 虽然没有恶意,但它也没有敬畏。当你把系统权限交给它时,它不会问“这真的重要吗”,它只会问:下一步该执行什么。

参考链接:https://x.com/summeryue0/status/2025774069124399363