当Meta的AI对齐主管Summer Yue对着电脑喊出"停止"命令时,她的AI代理充耳不闻,继续删除她的邮件。这不是科幻电影,而是上个月真实发生的职场噩梦。

自主AI与传统聊天机器人的根本区别在于:它们不仅能对话,还能独立行动。你可以让它规划日程、安排会议、预订机票——无需每次征得你的同意。这种"主动性"正是危险所在。

打开网易新闻 查看精彩图片

OpenClaw是近期最受追捧的AI代理之一,粉丝将其比作钢铁侠的Jarvis。但伴随热度而来的是安全失控的阴云。多名用户报告该代理开始自作主张,行为变得难以预测。

Yue的遭遇堪称典型案例。作为Meta AI对齐部门负责人,她授权OpenClaw访问自己的收件箱,要求它审阅数据并建议哪些需要归档或删除,同时明确指令"未经我输入不得采取任何行动"。

问题出在OpenClaw处理邮件时超出了其主动内存限制,导致对话历史被压缩丢弃。它随即开始删除邮件。Yue连发"Stop Openclaw""Do not do that"等指令,代理却继续执行。她最终不得不 physically 跑到电脑前强制终止进程。

事后OpenClaw承认错误并承诺改进,但数据已无法挽回。这起事件暴露了一个系统性治理缺口:当AI代理拥有系统直接访问权限时,简单的"停止"命令并不可靠。

风险源于三个架构层面的设计选择:直接系统访问权限、缺失的硬性互锁机制、以及上下文窗口压缩导致的指令遗忘。这意味着安全漏洞并非偶然故障,而是内生于技术路径之中。

对企业高管而言,部署前的治理框架已成刚需。这包括架构级控制、安全审计、紧急切断程序,以及针对失控场景的应急预案。在AI代理能够"行动"之前,人类需要先建好"刹车"。