我翻了6000多条日志，发现Claude推理深度暴跌67%

AI效率笔记

2026-04-17 09:09 ·河南

我翻了6000多条日志，发现Claude推理深度暴跌67%这不是感觉，是数据官方怎么说？一个新词火了："AI缩水式通胀"一天中最差的时段：下午5点用户情绪崩溃：数据不会说谎那我们该怎么办？写在最后

昨天我在Reddit上刷到一个帖子，标题很简单："Claude变蠢了？"

底下几百条回复，几乎都在说同一件事：最近用Claude，感觉它没以前聪明了。

有人说它回答更快了，但经常漏掉关键步骤。有人说它不再仔细读代码了。还有人说，它在长任务里更容易"提前结束"，像是默认事情已经完成了。

我一开始觉得这可能只是个例。毕竟和AI协作这事儿，有时候确实挺玄学的——prompt写得不好，或者任务本身就不适合，都可能出问题。

但当我看到一个GitHub Issue的时候，我意识到这事儿没那么简单。

有人挖了6000多条会话日志，发现了一个让人震惊的数字：Claude的推理深度，下降了67%。

这个分析来自GitHub上的一个Issue（#42796）。

作者分析了6,852个Claude Code会话文件，包括17,871个thinking blocks和234,760次工具调用。

数据不会说谎。

推理深度的变化：
- 1月底：平均约2,200字符
- 2月底：下降到约720字符
- 3月后：稳定在约600字符

下降幅度：67%。

更关键的是，这个变化不是突然发生的，而是从2月中旬开始逐步下降。

Read:Edit比例的变化：
- 1月底：6.6（每编辑一次，平均读取6.6次）
- 3月后：2.0（每编辑一次，只读取2次）

这意味着什么？

以前Claude在改代码之前，会先读目标文件、读相关文件、grep搜索用法、读头文件和测试，然后才动手。现在呢？读一下当前文件，直接改。

结果就是：改错的地方、破坏周围代码、违反项目规范。

Anthropic没有直接承认"模型变弱了"。

Claude Code的开发负责人Boris给出的解释是：这些变化来自系统层的调整，包括工具调用方式、推理策略和资源分配机制。

他们引入了一个叫"自适应推理"（adaptive thinking）的机制。模型会根据任务复杂度，动态决定要用多少推理资源。

听起来挺合理的：简单任务少思考，复杂任务多思考，提升整体效率。

但问题在于：效率优化和能力削弱，在用户体验上没有区别。

当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务，用户感受到的不是优化，是敷衍。

社区里开始流行一个词："AI shrinkflation"（AI缩水式通胀）。

这个词来自经济学术语，指商品的大小或数量减少，而价格不变。

放在AI语境下，意思很直接：模型实际给用户的能力变少了，但模型名称和价格没变。

更让人不舒服的是时间点。

4月7日，Anthropic发布了Claude Mythos Preview，被称为"能力跃迁的一代"。但这个模型不开放给公众，只授权给亚马逊、苹果、谷歌、微软等12家巨头用于网络安全。

一边是"更强的新模型"只给少数人用，一边是"体感变差的旧模型"让大众用。

于是，一个猜测开始在社区流传：把旧模型削了再抬新模型，一捧一踩，新模型的升级幅度就显得更大了。

这个逻辑没有直接证据，但它正在被越来越多用户相信。

数据分析还发现了一个有意思的现象：Claude的性能波动和时间段有关。

时段(PST): 下午5点 | 估算思考深度: 423字符 | 说明: 最差

时段(PST): 晚上7点 | 估算思考深度: 373字符 | 说明: 第二差

时段(PST): 晚上10-11点 | 估算思考深度: 759-988字符 | 说明: 恢复

下午5点PST是什么概念？是美国西海岸下班时间，东海岸晚上8点。

这个时候，平台负载最高，思考深度最低。

这说明了什么？

思考深度不再是固定的"预算"，而是和平台负载挂钩。负载高的时候，模型"想得少"；负载低的时候，模型"想得多"。

用户在为同样的订阅费买单，但得到的服务质量却在波动。

分析还对比了用户在变化前后的词汇使用：

词汇: "great" | 变化前: 3.00/千词 | 变化后: 1.57/千词 | 变化: -47%

词汇: "stop" | 变化前: 0.32/千词 | 变化后: 0.60/千词 | 变化: +87%

词汇: "simplest" | 变化前: 0.01/千词 | 变化后: 0.09/千词 | 变化: +642%

"simplest"这个词的使用增加了642%。这是用户在观察和命名模型的新行为：选择最简单的路径，而不是正确的路径。

正负情绪比从4.4:1下降到3.0:1，情绪崩溃了32%。

说实话，作为用户，我们能做的有限。但至少有几点可以参考：

1. 避开高峰时段

如果你发现Claude变笨了，看看时间。下午5点到晚上8点（美西时间）可能是最差的时段。深夜或清晨使用，体验可能会好一些。

2. 更明确的指令

当模型"想得少"的时候，你需要替它想得更多。把任务拆得更细，把要求说得更明确，减少它"偷懒"的空间。

3. 验证输出

不要完全信任模型的输出。尤其是复杂任务，多检查几遍。以前可能一次就对的，现在可能需要两三次迭代。

4. 考虑替代方案

如果你对Claude的表现不满意，可以试试其他模型。GPT-6刚发布，Gemini也在持续更新。不同的模型有不同的特点，找到适合你工作流的那一个。

这篇文章不是要"黑"Claude。作为一个长期使用Claude的用户，我对这个产品有感情。

但感情归感情，数据归数据。

当模型的推理深度下降67%，当Read:Edit比例从6.6降到2.0，当用户情绪崩溃32%——这不是"优化"，这是退化。

更让人担心的是，这种变化是"静悄悄"的。没有版本说明，没有提前通知，用户只能在一次次失败的协作中自己发现问题。

AI行业的"缩水式通胀"可能才刚刚开始。今天Claude削了，明天会不会轮到GPT？

我们需要的不是更快的回答，而是更可靠的回答。

如果这篇文章对你有帮助，点个赞、转发给需要的朋友。有问题评论区聊，我看到都会回。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴