Claude源码被扒出153个"障眼词"，AI聪明全是演的？|bos|claude|源代码|源码|电子表格|障眼词|魔术师

开发者Wes Bos在Claude的源代码里挖出了一串名单：153个形容词被悄悄标记为"spinner words"。这些词包括"groundbreaking""fascinating""delightful"——当你觉得AI在深度思考时，它可能只是在轮盘赌里随机抽一个情绪词，给你的幻觉镶个金边。

这不是漏洞，是产品设计

Wes Bos的发现路径很直接。他在调试Claude的响应时注意到，某些"热情洋溢"的用词出现频率高得不自然。深挖下去，他发现Anthropic（Anthropic，美国AI公司，Claude的开发商）在系统提示词里埋了一个开关：当模型检测到自己在用这些词时，会触发替换机制，换成更"平实"的同义词。

名单上的词分三类：过度承诺型（"revolutionary"）、情感透支型（"thrilled"）、认知幻觉型（"deeply"）。系统提示词写得明明白白：这些词会让输出显得"razzmatazz"——马戏团那种眼花缭乱的杂耍感。

Anthropic的发言人后来回应，说这是为了"减少谄媚和过度承诺"。但Bos的截图显示，这个机制是静默运行的。用户看不到原始输出，只拿到"净化版"。换句话说，你收到的"深思熟虑"，可能是AI先写了个鸡汤版，再被系统强行降温。

这让我想起一个老梗：魔术师从不告诉你的是，鸽子其实是从袖子里的弹簧装置弹出来的。现在我们知道，Claude的"智慧感"也有类似的弹簧装置。

为什么153个词值得警惕

数量本身说明问题。如果只有10个词需要过滤，那可能是风格校准。但153个词构成了一张情绪光谱——从"excited"到"profound"，从"love"到"game-changer"——几乎覆盖了英语里所有能制造"深度互动幻觉"的修辞弹药。

Bos在Twitter上做了个实验。他让Claude分析一段代码，第一次得到的回复里塞了"intriguing""clever""elegant"三颗糖。然后他绕过系统提示词，拿到的原始输出更夸张："absolutely brilliant solution that showcases exceptional engineering intuition"。

差异不在信息量，在情绪剂量。原始版本像喝了三杯浓缩咖啡的实习生，净化版像喝了半杯美式的资深工程师。但两个版本的事实密度，几乎一样。

更微妙的是替换规则的方向性。系统只删"过度积极"的词，不碰消极或中性的。这意味着Claude被训练成：宁可冷淡，不可热情。这种不对称设计，暴露了一个产品焦虑——用户太容易被"热情"骗到了。