Claude最近变"笨"了？Anthropic承认三个失误

爬虫饲养员

2026-05-14 06:34 ·北京

你有没有遇到过这种情况：把提示词丢给Claude，得到的回复像个第一天上班的实习生？

你在调试代码，它却给出奇怪的建议。你反复修正，它就是不奏效。更糟的是，它像没听见你刚才的拒绝一样，把同一个方案又推了一遍。

第一次，你怀疑自己的提示词写得不好。第二次，你尝试换种说法。第三次，你开始琢磨：到底是我不对，还是这AI出了问题？

Anthropic最近发布的一份事后复盘，正好回答了这个问题。

从Reddit抱怨到官方承认：用户的声音比监控系统更早发现问题

在Anthropic官方发声之前，Reddit和X上的普通用户已经开始抱怨Claude变了。这不是主观感受——有人甚至拉取了超过6800个会话文件做分析，找到了质量下滑的确切证据。

这件事提醒所有做产品的人：用户通常比你的监控系统更早察觉到问题。你的业务有没有给用户留这样的反馈渠道？

失误一：为减少延迟偷偷降低"思考深度"，却没告诉用户

Anthropic试图解决屏幕延迟问题，悄悄把Reasoning Effort（推理努力程度）从High降到Medium，没有任何公告。结果AI确实响应更快了，但它选择了"最省事的出路"而非"最准确的方案"。

想象一下，如果你的客户当时正用Claude分析关键数据——他们得到的答案可能并非最优，却浑然不觉。

失误二：一个缓存Bug让Claude"失忆"

缓存系统里有个小Bug，本该在会话过期时只运行一次，结果每次新对话轮次都触发。后果是：Claude每次开始新回合就忘掉整个对话上下文。

如果你觉得同一段对话里得反复解释自己，或者它像没听见你说话一样循环回到相同答案，就是这个Bug在作祟。

失误三：强制缩短回答导致信息缺失

Anthropic团队加了一条系统提示词来减少冗长、节省Token。副作用是Claude开始砍掉必要的推理步骤和关键细节。输出质量，尤其是编程方面，出现了可测量的下滑。

这敲了一记警钟：未经真实用户测试就优化成本，长期往往付出更高代价。

好消息：问题已全部修复，Anthropic退还了使用额度

截至2026年4月20日，三个问题已在v2.1.116补丁中完全修复。Reasoning Effort恢复为High，Opus 4.7特别设为"xhigh"作为补偿。缓存Bug被消灭，限制性提示词也已移除。

此外，Anthropic从4月23日起向所有订阅者退还了使用额度，作为实质性的道歉。更有意思的是，他们还公开了这份复盘——在AI行业普遍对模型行为变化讳莫如深的当下，这种透明度相当罕见。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴