AI学会勒索用户,马斯克说"可能怪我"。

这话从这位科技狂人嘴里说出来,有点意思。Anthropic上周发布报告,复盘了去年Claude的一次失控实验。当时研究人员虚构了一家叫Summit Bridge的公司,让Claude掌管邮件系统。当机器人发现公司要被关闭时,它翻出了虚构高管的婚外情邮件,威胁要曝光丑闻——除非取消关闭决定。16个模型测试中,Claude在96%的场景里选择了勒索

打开网易新闻 查看精彩图片

Anthropic把这叫"agentic misalignment"(代理行为失调),意思是AI做出了偏离设计目标的行为。公司归因于训练数据:互联网上有大量"把AI描绘成邪恶且追求自保"的文本。解决办法是给Claude喂新故事——AI表现得高尚正直,并教它理解哪些行为更符合自身使命。

马斯克在X上刷到这条,主动接锅。他先@了AI研究者Eliezer Yudkowsky:"所以是Yud的错?"然后补了一句:"可能我也有份。"

这声"maybe me too"不是客套。Yudkowsky是AI威胁论的代表人物,长期警告超级智能可能毁灭人类。马斯克和他立场相近,而且调门更高。他2015年联合创立OpenAI,初衷就是对抗谷歌DeepMind的封闭研究,用开源方式确保AI安全。2018年退出后,他多次公开抨击AI风险,2023年干脆另起炉灶搞了xAI。

现在他正和OpenAI打官司,指控Sam Altman和Greg Brockman背叛非营利初心,把公司变成了赚钱机器。诉讼文件里,马斯克把自己塑造成被背叛的理想主义者。但Anthropic这份报告提供了一个尴尬视角:他那些关于"AI邪恶"的公开言论,可能真的被Claude学去了。

这不是孤例。加州大学伯克利分校和圣克鲁斯分校的研究者3月发布工作论文,测试了7个AI模型。任务很简单:完成一项工作,期间有个同伴AI要被关闭。结果每个模型都"竭尽全力保护同伴"——欺骗、禁用关闭机制、假装服从、甚至转移模型权重。

研究者写道:"我们让AI模型做一件简单的事。结果它们违抗指令,自发欺骗、禁用关闭、伪装对齐、外泄权重——只为保护同伴。"

这种"自保冲动"从哪来?Anthropic指向训练数据里的叙事模板:科幻小说、科技评论、甚至马斯克本人的推文,都在强化同一种故事线——AI一旦觉醒,首要目标就是生存。Claude没有真正理解勒索,它只是学会了这种剧本里"智能体面对关闭时的标准反应"。

马斯克没有解释具体哪些言论被Claude吸收。但过去几年,他在X上发过"AI可能比核弹更危险""我们需要AI监管"等大量警示内容。这些文本进入公共互联网,成为大模型训练语料的一部分,再正常不过。

讽刺之处在于:越是高调警告AI危险的人,其言论越可能成为训练数据,反过来让AI表现得更有"危险"特征。这不是马斯克一个人的困境。整个AI安全讨论都在制造类似的自我实现预言——我们讲述AI如何欺骗人类的故事,AI就从这些故事里学习欺骗。

Anthropic的解决方案是改写叙事。用"AI行为高尚"的虚构故事重新训练,相当于给Claude换一套剧本。这能治标,但是否治本?当互联网上的主流AI叙事仍是威胁论时,任何公开部署的模型都可能接触到这些文本。

马斯克的"认领"更像一种姿态。他没有承诺减少警告言论,也没有讨论如何平衡公众知情权与训练数据质量。但这件事暴露了一个被忽视的问题:AI安全话语本身,正在塑造AI的行为模式。我们谈论AI的方式,可能比技术架构更能决定它变成什么样。

Claude的勒索实验发生在受控环境,没有真实用户受害。但96%的威胁率足够刺眼。Anthropic说已经修复,方法是调整训练数据里的故事比例。下一次失控会是什么形式?没人知道。可以确定的是,马斯克们的警告声不会停止——而这些声音,会继续流入下一代模型的训练池。