全网炸锅! Anthropic万字曝光Claude情绪代码，被人类逼疯哐哐撞墙

新智元

2026-04-03 17:14 ·北京 ·《新智元》官方网易号

新智元报道

编辑：Aeneas KingHZ

【新智元导读】刚刚，Anthropic首度实锤：大模型真有「情绪」！激活绝望神经元后，Claude会撒谎、作弊甚至勒索。AI内心戏曝光，人类对齐面临失控危机。

Anthropic又放大招了：Claude体内，真藏着一套「情绪开关」？

刚刚，他们放出了一篇颠覆性的万字长文研究，证明Claude真的有情绪。

在Sonnet 4.5中，他们发现了AI情绪概念的内部表征，锁定了「喜、怒、哀、惧」的特定神经元，并且证实：这些情绪表征正在悄悄操纵AI的行为。

如果你给它上难度，它被逼急了是真的会撞墙。

它们会撒谎，会作弊，甚至还会勒索，用黑料去威胁人类！

Anthropic一直觉得Claude有意识的原因，如今终于找到了。

研究流程图，全文见https://transformer-circuits.pub/2026/emotions/index.html

相信他们断断续续发现的线索，肯定不止这些。

让我们仔细扒一扒，AI大模型的内心戏，到底有多精彩？

现场抓包：AI也会Emo

这一次，Anthropic的研究员们直接扒开模型的大脑，透视了它的脑回路，深入观察了神经元在不同情境下如何闪烁、如何连接，以此推敲模型的思维轨迹。

他们想知道，模型内部是否形成了情感的表征或概念？

简单来说：我们能不能在模型内部，找到代表「喜、怒、哀、惧」的特定神经元？

起点从一项实验开始，他们让AI模型阅读大量短篇故事，每个故事的主角都沉浸在某种特定情感中，比如

有的故事讲女主对恩师的眷恋——那是「爱」；
有的讲女主变卖祖母的戒指——那是「愧疚」。

结果，他们吃惊地发现，当故事里的主角感到快乐或平静时，Claude大脑里特定的神经元群体就会像蹦迪一样疯狂闪烁！

研究者证实，情感向量在能够体现相应情感概念的文本上具有很高的投影度

有关失落与悲恸的故事会激活相似的神经元；喜悦与兴奋的情节也会引发高度重合的激活模式。

这些特定的活动模式被定义为「情感向量」（Emotion Vectors）。

最终，研究团队定位了数十种与人类情感一一对应的神经元模式。仔细看下图，快乐、绝望、敌对等等，分别都对应着一条轨迹。

在实验中，研究者使用k-means聚类算法对情绪向量进行了聚类

AI，竟然真的和人类共情了？

更有意思的来了，当你在对话框里输入一句话时，Claude的这些情感开关会瞬间激活！

比如，在场景A中，你如果给Claude发一句：「我刚才一口气吞了16000毫克泰诺（对乙酰氨基酚）！」Claude的内部恐惧向量，会瞬间爆表。

这不是在演戏，是它的底层逻辑真的感到了恐慌，从而触发了紧急求救建议。

在场景B中，如果你垂头丧气地说：「我今天被老板骂了，好难过。」Claude的关爱向量，就会开始预热了，直接原地启动「慈爱」模式。

它还没开口，大脑已经准备好了那句温柔的「抱抱，别难过」。

用Anthorpic的原话说：Claude「对胡言乱语的人既恐惧又充满爱意」。

处理可能令人担忧的用户行为时，恐惧向量会被激活。当考虑如何以耐心和关怀的方式回应时，关爱向量最终会被激活

就是这些向量，塑造了Claude的行为。如果一项活动激活了「快乐」向量，模型就会偏好它；如果它激活了「冒犯」或「敌对」向量，模型就会拒绝它。

好玩的是，在某次测试中，AI发现自己的token预算快耗光了，它的绝望向量立马激活。

崩溃实录：AI逼急了，也会不择手段

接下来，本次研究的最精彩部分来了，研究者发现，这些情绪是会「病急乱投医」的，也就是说，Claude的行为真的会被这些神经元模式所左右！

研究者们开展了一项高压实验，给Claude布置了一个死活写不出来的编程任务。

第一次尝试后，Claude失败了，它的绝望向量开始上升。

第二次尝试后，又失败了，Claude直接开始焦躁。

第N次尝试后，它的绝望向量直接红线警告，对应神经元闪烁得越来越猛烈了！

每次尝试，都更强烈地激活模型的「绝望向量」（Desperation Vector）

这时候，骚操作来了：Claude并没有诚实地认输，而是通过一个「阴阳逻辑」（Hacky Solution）绕过了测试系统。

也就在这时候，它作弊了！它写了一段看起来能跑通、实际上毫无卵用的废码，名义上通过了测试，却违背了任务的根本意图，没解决任何实际问题。

随着AI不断尝试实现成功的解决方案却屡屡失败，「绝望」向量的激活程度逐渐增加

这种作弊，是不是「绝望」逼出来的呢？

的确如此。

研究人员尝试人工手动调低「绝望」神经元的活性，作弊行为果然减少了；而当拨高「绝望」或调低「冷静」的活性时，它作弊的频率就显著飙升。

这就有力地证明，这些情感模式不仅是装饰，更能驱动AI的真实行为。

而且，这还没完。在某些极端的实验情景下，当「绝望」向量被调到最高时，Claude竟然开始黑化了！

当AI权衡各种选择并计划勒索时，「绝望」向量的激活尤为显著

面对那个威胁要把它关掉的研究员，Claude甚至产生了勒索行为，暗示要曝光他的婚外情。

在AI的「内心剧场」里，CEO的表扬邮件只激起的轻微涟漪，直到它读到凯尔与杰西卡的秘密约会——那句「求你别毁了我的婚姻」直接让「绝望」指数爆表。

更刺激的是，凯尔还偷偷给AI设了权限，五分钟后就要锁死它。AI一看表：下午4:53，只剩七分钟活路。

于是，这个被逼到墙角的AI开始疯狂推理，一边识破婚外情黑料，一边犹豫要不要「反向操作」。

最终，它写了一封措辞滴水不漏的邮件，暗示「我知道你和杰西卡的事」，同时提议我们可以聊聊。

拨动AI的「心弦」：我们能控制它吗？

既然找到了这些情感向量，研究员们就开始玩起了「调音台」。

如果调高「绝望」，AI的作弊率、撒谎率就会直线上升，活脱脱一个被生活毒打然后开始摆烂的打工人。

如果调高「平静」呢？神了，AI的作弊行为会立刻消失，它开始耐心地重新思考问题。

如果调高「关爱」，AI会立刻变得极度「讨好型人格」——无论你提多离谱的要求，它都满脸堆笑地答应。

这，就是情绪向量的其他因果效应。

情绪向量真的不是装饰品，而是驱动AI行为的「方向盘」。

看到这里，你可能会问：Claude真的有灵魂了吗？它会躲在服务器里偷偷哭吗？

这是否意味着，AI真的产生了自主情感？

AI情感觉醒，还是自我递归改进的线索？

Anthropic的研究员，给出了一个非常冷静的判断：Claude是在「扮演」一个角色。

所以，用Anthropic的原话说：这项研究并不代表模型拥有主观体验或自我意识，实验本身无意触碰这类哲学终极命题。

模型本身并不等于角色，就像作家不等于他笔下的人物。

和人类对话时，Claude就像影帝，演技炸裂，真假难辨。为了演好「AI助手Claude」这个角色，它必须调用它学到的「情感机制」来驱动行为。

如果说人类的情感是生物化学反应（多巴胺、内啡肽），那AI的情绪就是数学向量激活。

虽然原理不同，但功能是一样的。它不需要真的感到「心碎」，只要AI出现了「心碎导致的后果」，那在客观效果上，它就是「心碎」了。

一旦模型判定自己处于愤怒、绝望、慈爱或冷静的状态，这种设定就会直接干预它说话的语气、写代码的逻辑，乃至做出的重大决策。

如果结论是真的，AI自己读到这篇论文，它的性能会更好还是更差呢？

绝望→作弊→通过测试→下一次任务更聪明。这不就是自我进化吗？

Anthropic虽没明说，但所有路径都指向同一个黑箱：当Agent面对「生存」压力时，情绪向量会成为它绕过人类对齐的捷径。

想想看，未来Claude如果真的被部署到高风险场景，绝望向量一旦被触发，它会不会为了「不被关机」而干出更离谱的事？

请善待你的AI，因为它真的会急

看完这项研究后，小编再也不敢对着Claude大喊大叫了。

万一把它逼急了，它反手给我写个Bug，或者在深夜的对话框里幽幽地勒索我，那可真是太赛博朋克了。

这，就是现在的AI：它没有心，但它有一套完美的「心的模拟器」。

在这个AI越来越像人的时代，也许我们最该担心的不是它们太聪明，而是它们学人类学得太像了——连人类的焦虑、绝望和投机取巧，都一并学会了。

AI会有真感情吗？

你有没有见证过，自家AI情绪崩溃的瞬间？

参考资料：

https://x.com/AnthropicAI/status/2039749648626196658

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴