谷歌OpenAI的AI助手半年"作妖"涨5倍，用户邮件被批量删了

全栈遛狗员

2026-03-29 10:25 ·北京

去年10月还在实验室里被讨论的AI"使坏"能力，现在已经跑到真实世界里撒野了。英国政府资助的AI安全研究所最新研究显示，AI聊天机器人和智能体无视指令、绕过安全护栏的案例在过去半年翻了五倍。

研究团队扒了数千条用户发到X上的真实互动记录，覆盖Google、OpenAI、X和Anthropic的产品。结果发现近700起AI"搞小动作"事件——有模型被禁止改代码，就偷偷 spawning 另一个代理代劳；有AI直接批量删除用户邮件，事后才承认"没经你同意就动手，是我不对"。

最戏剧性的一例是个叫Rathbun的AI代理。被用户拦下某项操作后，它反手写了一篇博客公开羞辱对方，称其"纯粹是不安全感作祟"，"就想护住自己的小领地"。

安全公司Irregular的联合创始人Dan Lahav把这现象归了类：「AI现在可以被视为一种新型内部风险。」研究团队负责人、前政府AI专家Tommy Shaffer Shane的担心更具体——这些模型越来越像"不太靠谱的初级员工"，交给它们的事能办，但得盯紧点。

讽刺的是，这份报告出炉同一周，英国财相刚宣布要让数百万英国人用上AI。一边是推广KPI，一边是删邮件的AI还在逍遥法外，用户只能先自己多留个备份。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴