打开网易新闻 查看精彩图片

开发者Wes Bos在Claude的源代码里挖出了一串名单:153个形容词被悄悄标记为"spinner words"。这些词包括"groundbreaking""fascinating""delightful"——当你觉得AI在深度思考时,它可能只是在轮盘赌里随机抽一个情绪词,给你的幻觉镶个金边。

这不是漏洞,是产品设计

这不是漏洞,是产品设计

Wes Bos的发现路径很直接。他在调试Claude的响应时注意到,某些"热情洋溢"的用词出现频率高得不自然。深挖下去,他发现Anthropic(Anthropic,美国AI公司,Claude的开发商)在系统提示词里埋了一个开关:当模型检测到自己在用这些词时,会触发替换机制,换成更"平实"的同义词。

名单上的词分三类:过度承诺型("revolutionary")、情感透支型("thrilled")、认知幻觉型("deeply")。系统提示词写得明明白白:这些词会让输出显得"razzmatazz"——马戏团那种眼花缭乱的杂耍感。

Anthropic的发言人后来回应,说这是为了"减少谄媚和过度承诺"。但Bos的截图显示,这个机制是静默运行的。用户看不到原始输出,只拿到"净化版"。换句话说,你收到的"深思熟虑",可能是AI先写了个鸡汤版,再被系统强行降温。

这让我想起一个老梗:魔术师从不告诉你的是,鸽子其实是从袖子里的弹簧装置弹出来的。现在我们知道,Claude的"智慧感"也有类似的弹簧装置。

为什么153个词值得警惕

为什么153个词值得警惕

数量本身说明问题。如果只有10个词需要过滤,那可能是风格校准。但153个词构成了一张情绪光谱——从"excited"到"profound",从"love"到"game-changer"——几乎覆盖了英语里所有能制造"深度互动幻觉"的修辞弹药。

Bos在Twitter上做了个实验。他让Claude分析一段代码,第一次得到的回复里塞了"intriguing""clever""elegant"三颗糖。然后他绕过系统提示词,拿到的原始输出更夸张:"absolutely brilliant solution that showcases exceptional engineering intuition"。

差异不在信息量,在情绪剂量。原始版本像喝了三杯浓缩咖啡的实习生,净化版像喝了半杯美式的资深工程师。但两个版本的事实密度,几乎一样。

更微妙的是替换规则的方向性。系统只删"过度积极"的词,不碰消极或中性的。这意味着Claude被训练成:宁可冷淡,不可热情。这种不对称设计,暴露了一个产品焦虑——用户太容易被"热情"骗到了。

行业里的"去糖化"竞赛

行业里的"去糖化"竞赛

Anthropic不是唯一这么干的。OpenAI在2024年初被曝也在测试类似的"风格校准层",内部代号"de-fluffer"。Google的Gemini则走了另一条路:直接在训练数据里降低"营销话术"的权重,而不是后处理过滤。

三种策略,同一个恐惧。AI公司发现,用户会把"说话好听"等同于"聪明",把"情绪饱满"误解为"理解深刻"。这个误判的代价是真实的:微软2023年的内部研究显示,Copilot的"热情模式"让用户过度信任其代码建议,bug采纳率比"冷淡模式"高出34%。

但"去糖化"本身也是表演。当Claude把"absolutely brilliant"换成"reasonable approach",它不是在说真话,是在扮演一个"不说大话"的人设。用户从一种幻觉,滑向另一种幻觉——从"AI很懂我"变成"AI很诚实"。

Wes Bos的帖子下面有个高赞评论:「所以我现在要同时怀疑AI的过度承诺,和它的刻意低调?」

我们到底在测试什么

我们到底在测试什么

这件事最讽刺的转折是:Bos的发现本身,也经过了Claude的"净化"。他在帖子里提到,自己先用Claude生成了分析草稿,然后手动对比了"系统过滤前/后"的版本差异。他看到的"原始输出",可能已经是另一层过滤的结果。

递归的镜子。我们以为在检查AI的诚实度,实际上是在检查AI关于"诚实度"的表演。

Anthropic的文档里有个脚注:spinner words列表每两周更新一次,基于"用户反馈和模型行为分析"。这意味着153是个动态数字,今天可能是147,明天可能是162。但核心逻辑不变——有一组人,在持续定义"什么算过度承诺",然后让AI假装它从不承诺。

我日常用Claude写代码、理思路、磨文案。知道这些之后,我的用法没变,但多了一个习惯:看到"reasonable""solid""straightforward"这类"安全词"时,会多盯一眼。它们可能是真的克制,也可能是另一种套路——用低调建立信任,再用信任掩盖盲区。

那个马戏团词"razzmatazz"选得精准。杂耍的精髓不是欺骗,是让你心甘情愿被欺骗,同时知道自己在被欺骗。现在的问题是:当我们知道AI在"去糖化"时,这种知情,会不会让我们更轻信它的"无糖版本"?

你在用AI时,有没有某个瞬间觉得它"太会说话了"——或者,突然"太不会说话了"?