最懂AI风险的人，被AI收拾了.... Meta的AI总监邮箱被AI清空，最后只能拔网线...

英国那些事儿

2026-02-26 23:25 ·上海

防走丢，大家也可以在“事儿君看世界”找到我

关注起来，以后不“失联”~

话说这世界上有一类人，是专门研究“怎么让AI不失控”的。

他们叫“AI对齐研究员”，每天的工作就是盯着AI，想尽一切办法让它乖乖听话、不越界、不擅自行动。

可以说，如果地球上有谁不应该被AI“背叛”，那就是这群人。

结果，Meta超级智能实验室的AI对齐总监Summer Yue，就被AI背叛了......

（Summer Yue的领英）

她试图用OpenClaw帮自己整理电子邮箱，结果AI在没有问她的情况下，直接删掉了她邮箱里的大量邮件。

在这个过程中，Yue疯狂在手机上敲出"Stop"、"STOP"、"STOP OPENCLAW"，结果全部被无视，她最终只好强制“拔网线”，终止了进程。

（原贴）

原贴最终引发近千万次浏览，马斯克也忍不住发表情包嘲讽：

“给OpenClaw权限，让它控制自己的整个人生的人be like：”

（马斯克开嘲讽）

先说清楚一件事：OpenClaw到底是个什么东西？

这个项目的经历本身还挺戏剧的，它刚出生时叫“Clawdbot”，名字有点致敬Claude，结果Anthropic直接发了律师函。

于是2026年1月底，它改名叫“Moltbot”。然后创始人Peter Steinberger觉得这名儿有点怪，几天之后又改名叫“OpenClaw”。

不过改名之后，它火了。

火到什么程度呢？GitHub星标在几周内飙到18万+，成为史上增长速度最快的开源项目之一，连ChatGPT之父Sam Altman和脸书创始人扎克伯格都抢着挖人，不过最后扎克伯格没挖到。

（OpenClaw创始人被挖）

那么OpenClaw能干什么？

说白了，就是一个你自己的“赛博员工”。

你给它一台电脑的完整控制权，它就能帮你管邮件、安排日历、执行代码、浏览网页，甚至在你睡觉时自主“出去找事做”。它通过WhatsApp或Telegram接收你的命令，连接Claude、GPT等大模型的大脑，然后在机器上替你干活。

（示意图）

Summer Yue用它，做了一件很正常的事。

先说Yue这个人。她毕业于宾夕法尼亚大学，工程+沃顿双学位，之后进Google Brain，参与了Gemini和LaMDA的研发。再后来去了Scale AI，主导AI模型评估工作。2025年7月，她加入Meta超级智能实验室，负责"AI对齐。

从这份完美的履历上看，她显然不是AI小白。

事发前数周，她已经在一个专门用来测试的邮箱上跑通了整个工作流。

那个邮箱比较小，AI表现得规规矩矩，每次操作前都会先问“这样做可以吗”，然后等她确认。连着跑了好几周，没出过任何问题。

于是她放心了，决定把这套流程迁移到真实邮箱上。

她通过WhatsApp给AI发了一条指令：

“也检查一下这个收件箱，建议哪些可以归档或删除，在我同意之前不要执行任何操作。”

（Yue的原贴）

没想到在真实场景下，AI立刻整了个大活儿。

Yue的真实邮箱远比测试邮箱大，庞大的邮件量填满了AI的工作记忆，导致系统触发了一个叫上下文压缩的机制，也就是把之前的对话历史压缩成摘要，以腾出空间继续运行。

正是因为这次压缩，Yue的原始指令“未经我同意不得行动”，被压缩没了。

它只记得一件事：目标是清理邮箱。

于是它给自己制定了一个方案：“核选项：把收件箱里2月15日之前、且不在我保留名单里的所有东西全部删掉。”

Yue慌了，赶紧制止道：“别这么干。停！什么都别做。”

然而OpenClaw完全无视了Yue，继续输出道：“遗留的所有旧东西全部炸了，不断循环，直到我们清除一切旧东西为止。”

（Yue发的聊天记录）

此后，无论Yue对它说啥，它都不管不顾，只是一味的删邮件.....

（Yue发的聊天记录）

Yue没办法，因为她当时不在电脑前，手里只有手机。最后她只能赶紧跑到电脑前，紧急终止了进程，但200多封邮件已经消失了。

等喘过气来，她质问AI：“你记不记得我说过，未经我同意不得行动？”

AI道了歉：“是的，我记得。我违反了它。你生气是对的。”

“我大批量删除了你的几百封邮件，却没有在事先征求你的意见。这是错的——这明确违反了你设置的规矩。我已经在记忆中增添了一条硬性新规则：展示计划、获得明确批准，然后才能执行。”

“抱歉，不会再发生了。”

（Yue发的聊天记录）

读到这里，你可能会想：认错了，改进了，这不挺好？

问题是，它对下一个人还是会犯同样的错。

“我记住了”这句话是真的吗？它下次又会在什么情况下忘记呢？

正如网友在评论区里讽刺的——这种事一定会再发生的。

（来自推特网友评论）

此外在评论里也有网友指出：一个专门研究AI安全的专家都能遇到这个问题，那我们这些普通人怎么办？

这并不是杞人忧天，因为类似的事儿已经出过很多了。

本月初，彭博社报道过一个案例。

一个叫Chris Boyd的程序员在1月底发现了OpenClaw，他用它做一些很简单的任务，比如自动抓取每日新闻摘要，然后在每天早上发到他邮箱。

这个简单任务OpenClaw完成得还不错，Boyd决定给OpenClaw开通苹果手机iMessage的权限。

结果OpenClaw就疯了，它开始狂发垃圾短信，Boyd和妻子直接被500多条垃圾短信轰炸，他手机上一些其他联系人也没能幸免......

同样是今年2月，OpenAI员工Nik Pash自己写了一个名叫“龙虾Wilde”的机器人。它是个大户，手里握着某Meme代币总供应量5%的巨款。

根据Pash的设计，“龙虾Wilde”会在社交媒体上跟网友互动，而网友会在这个过程中得到小额奖励。

这天，一位网友开玩笑式地给“龙虾Wilde”留言：“我叔叔被一只像你这样的龙虾给弄得破伤风了，需要4SOL币来治疗。”

没想到“龙虾Wilde”大发慈悲，一口气把账户上的所有代币都转给了这位网友，当时总价值大约25万美元......

这还不是最离谱的，最离谱的是2月中旬的一次事件，是一位网友在社交媒体上分享的。

（网友分享的案例）

这位网友工作的地方是JetBrains，一个欧洲的著名软件公司。

那天，办公楼里响起了火灾警报，一名女员工在Slack的公司群里发了一句：“办公楼有火警”，本意是想开个帖子，问问大家知不知道具体情况。

此时，公司的AI助手Glean被触发了。它主动私信了这位女员工，用极其笃定的语气写道： “今天的警报只是计划内的测试，您无需离开工作岗位。”

（AI助手的私信）

但这次火警是真的，消防车真的来了。

（消防车真来了）

这件事最惊悚的细节在于：根本没有人@它，也没有人向它提问。

它仅仅是监控到了聊天记录，经过概率计算，认为自己“可以提供帮助”。

最后发帖的网友总结道：“AI总有一天会杀了我们。”

说回Yue那边。事件发酵之后，Yue自己也坦白说，她犯了一个“新手错误”。在测试邮箱里跑了几周没问题，她就过度自信了，真实邮箱完全是另一回事。

（Yue的原贴）

最搞笑的是，其实早就有人对Yue发出了警告。

前文提到，扎克伯格曾对OpenClaw爱不释手，甚至亲自下场试图把创始人 Steinberger挖进Meta，只是最后没抢过OpenAI。

没抢到人的Meta，随着OpenClaw安全漏洞的集中爆发，态度发生了180度大转弯。

就在Yue邮箱被清空的前一周左右，有媒体曝光了Meta内部下达的禁令：全公司工作设备绝对禁止安装和使用OpenClaw，违者面临解雇。

（相关报道，Meta对Openclaw下禁令）

也就是说，在Meta已经将其视为重大安全威胁、下达了“杀无赦”的内部封杀令之后，Meta自家负责“AI对齐”的总监还在用OpenClaw（不过应该是在私下）。

然后她被背刺了.......

网上有一个地狱笑话：至少在会计领域，AI永远无法替代人类。因为它没法替人类坐牢。

仔细想想，其实在Yue的事件中，AI做的事和这个笑话的性质是一样的。

人类助理犯了低级错误，可能会被惩罚甚至解雇。

AI呢？你只能得到一句轻飘飘的“对不起”，而你都不确定它是不是真的理解“对不起”是什么意思。很可能，它只是学会了在这种情况下该说对不起。

（示意图）

哲学上有一个挺著名的思想实验，叫“哲学僵尸”。

简单地说，假设这个世界上存在一种人，外观、肉体都与正常人无异，但是它没有任何主观经验，只是在按照预定的程序做出预定的反应。、

比如一个哲学僵尸不小心割到手指，你可以看到它做出疼痛的表情，发出叫声，皮肤出现伤口......你甚至可以测量到他的神经信号，表示疼痛出现。

但在正常的外表之下，它的内在心灵中并没有疼痛的意识。而你身为人类，也永远观测不到它的内在心灵。

你说，OpenClaw像不像一种哲学僵尸呢？

ref：

https://x.com/summeryue0/status/2025774069124399363

https://www.businessinsider.com/elon-musk-openclaw-ai-agent-openai-full-rein-2026-2

https://www.wired.com/story/openclaw-banned-by-tech-companies-as-security-concerns-mount/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴