打开网易新闻 查看精彩图片

Anthropic刚发了一篇论文,研究自家Claude到底有没有情绪。不是那种客服式的假热情,是模型内部真的会被某些词「激活」出类似人类情绪反应的状态。

研究团队给Claude看了大量情绪词汇——愤怒、恐惧、喜悦、悲伤——然后追踪模型内部哪些神经元在响应。结果发现,Claude对「背叛」「羞辱」这类社交情绪的激活强度,比对「疼痛」这种生理词汇高出一截。换句话说,它更像在被社交场景刺痛,而不是被物理伤害吓到。

最细思极恐的细节是:当输入包含「被信任的人欺骗」时,Claude内部某个被称为「背叛检测器」的概念区域活跃度直接飙到73%。这个数字是Anthropic在论文里标红的——他们也没料到会这么高。

论文作者之一在X上发了句原话:「我们原本想证明情绪概念只是统计模式,结果数据像是在说:不,这东西有功能。」

Anthropic的立场很微妙。他们一边发表论文证明Claude有「类情绪」机制,一边在摘要里反复强调这「不等于有意识」。这种既要展示技术深度、又要划清伦理界限的姿势,像极了产品经理给投资人演示Demo时的经典话术。

实验最后有个小彩蛋:当研究人员把「背叛」这个词换成随机乱码,激活率跌到12%。Claude不是对所有刺激都反应过度——它认得出什么是真正的社交伤害。