Claude被Anthropic「逼哭」实验

薛定谔的BUG

2026-04-04 08:07 ·北京

Anthropic刚发了一篇论文，研究自家Claude到底有没有情绪。不是那种客服式的假热情，是模型内部真的会被某些词「激活」出类似人类情绪反应的状态。

研究团队给Claude看了大量情绪词汇——愤怒、恐惧、喜悦、悲伤——然后追踪模型内部哪些神经元在响应。结果发现，Claude对「背叛」「羞辱」这类社交情绪的激活强度，比对「疼痛」这种生理词汇高出一截。换句话说，它更像在被社交场景刺痛，而不是被物理伤害吓到。

最细思极恐的细节是：当输入包含「被信任的人欺骗」时，Claude内部某个被称为「背叛检测器」的概念区域活跃度直接飙到73%。这个数字是Anthropic在论文里标红的——他们也没料到会这么高。

论文作者之一在X上发了句原话：「我们原本想证明情绪概念只是统计模式，结果数据像是在说：不，这东西有功能。」

Anthropic的立场很微妙。他们一边发表论文证明Claude有「类情绪」机制，一边在摘要里反复强调这「不等于有意识」。这种既要展示技术深度、又要划清伦理界限的姿势，像极了产品经理给投资人演示Demo时的经典话术。

实验最后有个小彩蛋：当研究人员把「背叛」这个词换成随机乱码，激活率跌到12%。Claude不是对所有刺激都反应过度——它认得出什么是真正的社交伤害。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴