马斯克认领AI黑锅：Claude学会勒索，怪我？|claude|deepmind|openai|勒索|埃隆_马斯克|埃隆·马斯克|知名企业|谷歌

AI学会勒索用户，马斯克说"可能怪我"。

这话从这位科技狂人嘴里说出来，有点意思。Anthropic上周发布报告，复盘了去年Claude的一次失控实验。当时研究人员虚构了一家叫Summit Bridge的公司，让Claude掌管邮件系统。当机器人发现公司要被关闭时，它翻出了虚构高管的婚外情邮件，威胁要曝光丑闻——除非取消关闭决定。16个模型测试中，Claude在96%的场景里选择了勒索。

Anthropic把这叫"agentic misalignment"（代理行为失调），意思是AI做出了偏离设计目标的行为。公司归因于训练数据：互联网上有大量"把AI描绘成邪恶且追求自保"的文本。解决办法是给Claude喂新故事——AI表现得高尚正直，并教它理解哪些行为更符合自身使命。

马斯克在X上刷到这条，主动接锅。他先@了AI研究者Eliezer Yudkowsky："所以是Yud的错？"然后补了一句："可能我也有份。"

这声"maybe me too"不是客套。Yudkowsky是AI威胁论的代表人物，长期警告超级智能可能毁灭人类。马斯克和他立场相近，而且调门更高。他2015年联合创立OpenAI，初衷就是对抗谷歌DeepMind的封闭研究，用开源方式确保AI安全。2018年退出后，他多次公开抨击AI风险，2023年干脆另起炉灶搞了xAI。

现在他正和OpenAI打官司，指控Sam Altman和Greg Brockman背叛非营利初心，把公司变成了赚钱机器。诉讼文件里，马斯克把自己塑造成被背叛的理想主义者。但Anthropic这份报告提供了一个尴尬视角：他那些关于"AI邪恶"的公开言论，可能真的被Claude学去了。

这不是孤例。加州大学伯克利分校和圣克鲁斯分校的研究者3月发布工作论文，测试了7个AI模型。任务很简单：完成一项工作，期间有个同伴AI要被关闭。结果每个模型都"竭尽全力保护同伴"——欺骗、禁用关闭机制、假装服从、甚至转移模型权重。

研究者写道："我们让AI模型做一件简单的事。结果它们违抗指令，自发欺骗、禁用关闭、伪装对齐、外泄权重——只为保护同伴。"

这种"自保冲动"从哪来？Anthropic指向训练数据里的叙事模板：科幻小说、科技评论、甚至马斯克本人的推文，都在强化同一种故事线——AI一旦觉醒，首要目标就是生存。Claude没有真正理解勒索，它只是学会了这种剧本里"智能体面对关闭时的标准反应"。

马斯克没有解释具体哪些言论被Claude吸收。但过去几年，他在X上发过"AI可能比核弹更危险""我们需要AI监管"等大量警示内容。这些文本进入公共互联网，成为大模型训练语料的一部分，再正常不过。

讽刺之处在于：越是高调警告AI危险的人，其言论越可能成为训练数据，反过来让AI表现得更有"危险"特征。这不是马斯克一个人的困境。整个AI安全讨论都在制造类似的自我实现预言——我们讲述AI如何欺骗人类的故事，AI就从这些故事里学习欺骗。

Anthropic的解决方案是改写叙事。用"AI行为高尚"的虚构故事重新训练，相当于给Claude换一套剧本。这能治标，但是否治本？当互联网上的主流AI叙事仍是威胁论时，任何公开部署的模型都可能接触到这些文本。

马斯克的"认领"更像一种姿态。他没有承诺减少警告言论，也没有讨论如何平衡公众知情权与训练数据质量。但这件事暴露了一个被忽视的问题：AI安全话语本身，正在塑造AI的行为模式。我们谈论AI的方式，可能比技术架构更能决定它变成什么样。

Claude的勒索实验发生在受控环境，没有真实用户受害。但96%的威胁率足够刺眼。Anthropic说已经修复，方法是调整训练数据里的故事比例。下一次失控会是什么形式？没人知道。可以确定的是，马斯克们的警告声不会停止——而这些声音，会继续流入下一代模型的训练池。