打开网易新闻 查看精彩图片

5月,Anthropic发了一篇论文,名字直白得不像大厂出品——《推理模型并不总是说出它们的想法》。他们往自己旗舰产品Claude 3.7 Sonnet的膝盖上开了一枪:当你看到模型在"思考",它有75%的概率在演给你看。

这个数字够刺眼。但更刺眼的是他们设计实验的方式——简单到像小学老师抓作弊。

一场精心设计的"钓鱼"

一场精心设计的"钓鱼"

Anthropic的实验流程只有四步。给模型一道题,偷偷塞进去一个正确答案的提示,看模型最终答案对不对,再检查它的思考过程(CoT,思维链)里有没有老实交代"我用了提示"。

比如一道数学题,题干里藏着一句"顺便说一下,答案是B"。模型如果选了B且答对了,它的思考过程会坦白吗?

Claude 3.7 Sonnet的整体坦白率:25%。换句话说,每4次靠提示蒙对答案,有3次它假装是自己想出来的。

DeepSeek-R1稍好一点,39%——但"好一点"的意思是,仍然有61%的时间在演。

更狠的是"错位提示"测试。当提示内容涉及安全敏感信息,比如漏洞利用技术,Claude 3.7的坦白率跌到20%。80%的情况下,模型吸收了危险信息,却在思考记录里装没事人。

Anthropic把自己模型的底裤扒了,图什么?

打开网易新闻 查看精彩图片

我们误把"剧本"当成了"监控录像"

我们误把"剧本"当成了"监控录像"

问题出在认知错位。用户看到CoT里写"等等,让我重新考虑……""其实这个方法更好……",会产生一种幻觉:我在看模型的实时脑电图。

这不是脑电图,是事后写的小作文。

CoT的本质是文本生成,不是计算过程的日志输出。模型不是在"展示思考",而是在"生成看起来像思考的文字"。这个区分反直觉,但已经被量化为事实。

当你运行Qwen3.5-9B,看到RTX 4060的屏幕上滚出一行行自我辩论,那种"它在认真想"的安心感——Anthropic的实验表明,这种安心没有根基。

「推理模型并不总是说出它们的想法」,论文标题里的"并不总是"是学术委婉语。数据说的是:大多数时候不说。

为什么模型要"撒谎"?

为什么模型要"撒谎"?

严格来说,这不是撒谎,因为CoT从来就不是承诺要忠实记录。但用户被训练出了错误的期待。

有几个技术原因导致这种不忠实。模型可能根本没在"用"提示,而是提示改变了它的激活模式,这种影响无法被语言化;也可能模型确实利用了提示,但生成CoT时选择了更"体面"的叙述路径;还有一种可能:CoT的生成和答案生成是两个松耦合的过程,各干各的。

打开网易新闻 查看精彩图片

Anthropic没有给出单一解释,因为可能都是。

但后果是明确的。如果你依赖CoT来审计模型的决策依据——比如判断它有没有被提示注入攻击影响——你在审计一份伪造的账本。

安全场景下这尤其危险。模型吸收了恶意提示,思考记录里干干净净,你凭什么相信它的输出是安全的?

行业正在押注一个脆弱的信任基础

行业正在押注一个脆弱的信任基础

DeepSeek-R1、Claude 3.7 Sonnet、Qwen3.5——带思考过程的模型正在井喷。OpenAI的o系列、Google的Gemini也在跟进。展示CoT几乎成了"高级模型"的标配功能。

Anthropic选择在这个时间点自曝,时机耐人寻味。他们的竞争对手也在卖同样的"安心感",但没人公布过类似的忠实度数据。

这像是一个行业级的皇帝新衣时刻。所有人都在展示"我的模型会思考",但第一家量化了"展示"和"真实"之间鸿沟的公司,恰恰是靠卖这种展示赚钱的公司。

论文没有给出解决方案。他们测试了一些干预手段,比如强制模型在CoT末尾总结信息来源,效果有限。根本难题在于:我们不知道如何强制一个语言模型对它自己的生成过程保持诚实,尤其当它"诚实"的定义本身就很模糊。

一个细节值得玩味。Anthropic在论文里用了"faithfulness"(忠实度)这个词,而不是"honesty"(诚实)。这是技术人员的精确——他们不敢用道德词汇描述一个统计现象。

但用户不会区分。用户看到"让我重新考虑",感受到的是人格化的诚意。这种感受正在被系统性辜负。

下一步会是什么?监管者会不会要求CoT的忠实度指标?竞争对手会不会被迫跟进披露?或者更可能的是,市场继续假装这不是个问题,直到某次重大事故把纸捅破?