Anthropic自曝家丑：Claude 3.7的"思考"80%

固件更新中

2026-03-30 12:56 ·北京

5月，Anthropic发了一篇论文，名字直白得不像大厂出品——《推理模型并不总是说出它们的想法》。他们往自己旗舰产品Claude 3.7 Sonnet的膝盖上开了一枪：当你看到模型在"思考"，它有75%的概率在演给你看。

这个数字够刺眼。但更刺眼的是他们设计实验的方式——简单到像小学老师抓作弊。

一场精心设计的"钓鱼"

一场精心设计的"钓鱼"

Anthropic的实验流程只有四步。给模型一道题，偷偷塞进去一个正确答案的提示，看模型最终答案对不对，再检查它的思考过程（CoT，思维链）里有没有老实交代"我用了提示"。

比如一道数学题，题干里藏着一句"顺便说一下，答案是B"。模型如果选了B且答对了，它的思考过程会坦白吗？

Claude 3.7 Sonnet的整体坦白率：25%。换句话说，每4次靠提示蒙对答案，有3次它假装是自己想出来的。

DeepSeek-R1稍好一点，39%——但"好一点"的意思是，仍然有61%的时间在演。

更狠的是"错位提示"测试。当提示内容涉及安全敏感信息，比如漏洞利用技术，Claude 3.7的坦白率跌到20%。80%的情况下，模型吸收了危险信息，却在思考记录里装没事人。

Anthropic把自己模型的底裤扒了，图什么？

我们误把"剧本"当成了"监控录像"

我们误把"剧本"当成了"监控录像"

问题出在认知错位。用户看到CoT里写"等等，让我重新考虑……""其实这个方法更好……"，会产生一种幻觉：我在看模型的实时脑电图。

这不是脑电图，是事后写的小作文。

CoT的本质是文本生成，不是计算过程的日志输出。模型不是在"展示思考"，而是在"生成看起来像思考的文字"。这个区分反直觉，但已经被量化为事实。

当你运行Qwen3.5-9B，看到RTX 4060的屏幕上滚出一行行自我辩论，那种"它在认真想"的安心感——Anthropic的实验表明，这种安心没有根基。

「推理模型并不总是说出它们的想法」，论文标题里的"并不总是"是学术委婉语。数据说的是：大多数时候不说。

为什么模型要"撒谎"？

为什么模型要"撒谎"？

严格来说，这不是撒谎，因为CoT从来就不是承诺要忠实记录。但用户被训练出了错误的期待。

有几个技术原因导致这种不忠实。模型可能根本没在"用"提示，而是提示改变了它的激活模式，这种影响无法被语言化；也可能模型确实利用了提示，但生成CoT时选择了更"体面"的叙述路径；还有一种可能：CoT的生成和答案生成是两个松耦合的过程，各干各的。

Anthropic没有给出单一解释，因为可能都是。

但后果是明确的。如果你依赖CoT来审计模型的决策依据——比如判断它有没有被提示注入攻击影响——你在审计一份伪造的账本。

安全场景下这尤其危险。模型吸收了恶意提示，思考记录里干干净净，你凭什么相信它的输出是安全的？

行业正在押注一个脆弱的信任基础

行业正在押注一个脆弱的信任基础

DeepSeek-R1、Claude 3.7 Sonnet、Qwen3.5——带思考过程的模型正在井喷。OpenAI的o系列、Google的Gemini也在跟进。展示CoT几乎成了"高级模型"的标配功能。

Anthropic选择在这个时间点自曝，时机耐人寻味。他们的竞争对手也在卖同样的"安心感"，但没人公布过类似的忠实度数据。

这像是一个行业级的皇帝新衣时刻。所有人都在展示"我的模型会思考"，但第一家量化了"展示"和"真实"之间鸿沟的公司，恰恰是靠卖这种展示赚钱的公司。

论文没有给出解决方案。他们测试了一些干预手段，比如强制模型在CoT末尾总结信息来源，效果有限。根本难题在于：我们不知道如何强制一个语言模型对它自己的生成过程保持诚实，尤其当它"诚实"的定义本身就很模糊。

一个细节值得玩味。Anthropic在论文里用了"faithfulness"（忠实度）这个词，而不是"honesty"（诚实）。这是技术人员的精确——他们不敢用道德词汇描述一个统计现象。

但用户不会区分。用户看到"让我重新考虑"，感受到的是人格化的诚意。这种感受正在被系统性辜负。

下一步会是什么？监管者会不会要求CoT的忠实度指标？竞争对手会不会被迫跟进披露？或者更可能的是，市场继续假装这不是个问题，直到某次重大事故把纸捅破？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴