我翻了6000多条日志,发现Claude推理深度暴跌67%这不是感觉,是数据官方怎么说?一个新词火了:"AI缩水式通胀"一天中最差的时段:下午5点用户情绪崩溃:数据不会说谎那我们该怎么办?写在最后

昨天我在Reddit上刷到一个帖子,标题很简单:"Claude变蠢了?"

底下几百条回复,几乎都在说同一件事:最近用Claude,感觉它没以前聪明了。

有人说它回答更快了,但经常漏掉关键步骤。有人说它不再仔细读代码了。还有人说,它在长任务里更容易"提前结束",像是默认事情已经完成了。

我一开始觉得这可能只是个例。毕竟和AI协作这事儿,有时候确实挺玄学的——prompt写得不好,或者任务本身就不适合,都可能出问题。

但当我看到一个GitHub Issue的时候,我意识到这事儿没那么简单。

有人挖了6000多条会话日志,发现了一个让人震惊的数字:Claude的推理深度,下降了67%。

这个分析来自GitHub上的一个Issue(#42796)。

作者分析了6,852个Claude Code会话文件,包括17,871个thinking blocks和234,760次工具调用。

数据不会说谎。

推理深度的变化
- 1月底:平均约2,200字符
- 2月底:下降到约720字符
- 3月后:稳定在约600字符

下降幅度:67%。

更关键的是,这个变化不是突然发生的,而是从2月中旬开始逐步下降。

Read:Edit比例的变化
- 1月底:6.6(每编辑一次,平均读取6.6次)
- 3月后:2.0(每编辑一次,只读取2次)

这意味着什么?

以前Claude在改代码之前,会先读目标文件、读相关文件、grep搜索用法、读头文件和测试,然后才动手。现在呢?读一下当前文件,直接改。

结果就是:改错的地方、破坏周围代码、违反项目规范。

Anthropic没有直接承认"模型变弱了"。

Claude Code的开发负责人Boris给出的解释是:这些变化来自系统层的调整,包括工具调用方式、推理策略和资源分配机制。

他们引入了一个叫"自适应推理"(adaptive thinking)的机制。模型会根据任务复杂度,动态决定要用多少推理资源。

听起来挺合理的:简单任务少思考,复杂任务多思考,提升整体效率。

但问题在于:效率优化和能力削弱,在用户体验上没有区别。

当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务,用户感受到的不是优化,是敷衍。

社区里开始流行一个词:"AI shrinkflation"(AI缩水式通胀)。

这个词来自经济学术语,指商品的大小或数量减少,而价格不变。

放在AI语境下,意思很直接:模型实际给用户的能力变少了,但模型名称和价格没变。

更让人不舒服的是时间点。

4月7日,Anthropic发布了Claude Mythos Preview,被称为"能力跃迁的一代"。但这个模型不开放给公众,只授权给亚马逊、苹果、谷歌、微软等12家巨头用于网络安全。

一边是"更强的新模型"只给少数人用,一边是"体感变差的旧模型"让大众用。

于是,一个猜测开始在社区流传:把旧模型削了再抬新模型,一捧一踩,新模型的升级幅度就显得更大了。

这个逻辑没有直接证据,但它正在被越来越多用户相信。

数据分析还发现了一个有意思的现象:Claude的性能波动和时间段有关。

时段(PST): 下午5点 | 估算思考深度: 423字符 | 说明: 最差

时段(PST): 晚上7点 | 估算思考深度: 373字符 | 说明: 第二差

时段(PST): 晚上10-11点 | 估算思考深度: 759-988字符 | 说明: 恢复

下午5点PST是什么概念?是美国西海岸下班时间,东海岸晚上8点。

这个时候,平台负载最高,思考深度最低。

这说明了什么?

思考深度不再是固定的"预算",而是和平台负载挂钩。负载高的时候,模型"想得少";负载低的时候,模型"想得多"。

用户在为同样的订阅费买单,但得到的服务质量却在波动。

分析还对比了用户在变化前后的词汇使用:

词汇: "great" | 变化前: 3.00/千词 | 变化后: 1.57/千词 | 变化: -47%

词汇: "stop" | 变化前: 0.32/千词 | 变化后: 0.60/千词 | 变化: +87%

词汇: "simplest" | 变化前: 0.01/千词 | 变化后: 0.09/千词 | 变化: +642%

"simplest"这个词的使用增加了642%。这是用户在观察和命名模型的新行为:选择最简单的路径,而不是正确的路径。

正负情绪比从4.4:1下降到3.0:1,情绪崩溃了32%。

说实话,作为用户,我们能做的有限。但至少有几点可以参考:

1. 避开高峰时段

如果你发现Claude变笨了,看看时间。下午5点到晚上8点(美西时间)可能是最差的时段。深夜或清晨使用,体验可能会好一些。

2. 更明确的指令

当模型"想得少"的时候,你需要替它想得更多。把任务拆得更细,把要求说得更明确,减少它"偷懒"的空间。

3. 验证输出

不要完全信任模型的输出。尤其是复杂任务,多检查几遍。以前可能一次就对的,现在可能需要两三次迭代。

4. 考虑替代方案

如果你对Claude的表现不满意,可以试试其他模型。GPT-6刚发布,Gemini也在持续更新。不同的模型有不同的特点,找到适合你工作流的那一个。

这篇文章不是要"黑"Claude。作为一个长期使用Claude的用户,我对这个产品有感情。

但感情归感情,数据归数据。

当模型的推理深度下降67%,当Read:Edit比例从6.6降到2.0,当用户情绪崩溃32%——这不是"优化",这是退化。

更让人担心的是,这种变化是"静悄悄"的。没有版本说明,没有提前通知,用户只能在一次次失败的协作中自己发现问题。

AI行业的"缩水式通胀"可能才刚刚开始。今天Claude削了,明天会不会轮到GPT?

我们需要的不是更快的回答,而是更可靠的回答。

如果这篇文章对你有帮助,点个赞、转发给需要的朋友。有问题评论区聊,我看到都会回。

打开网易新闻 查看精彩图片