你有没有遇到过这种情况:把提示词丢给Claude,得到的回复像个第一天上班的实习生?

你在调试代码,它却给出奇怪的建议。你反复修正,它就是不奏效。更糟的是,它像没听见你刚才的拒绝一样,把同一个方案又推了一遍。

打开网易新闻 查看精彩图片

第一次,你怀疑自己的提示词写得不好。第二次,你尝试换种说法。第三次,你开始琢磨:到底是我不对,还是这AI出了问题?

打开网易新闻 查看精彩图片

Anthropic最近发布的一份事后复盘,正好回答了这个问题。

从Reddit抱怨到官方承认:用户的声音比监控系统更早发现问题

在Anthropic官方发声之前,Reddit和X上的普通用户已经开始抱怨Claude变了。这不是主观感受——有人甚至拉取了超过6800个会话文件做分析,找到了质量下滑的确切证据。

这件事提醒所有做产品的人:用户通常比你的监控系统更早察觉到问题。你的业务有没有给用户留这样的反馈渠道?

失误一:为减少延迟偷偷降低"思考深度",却没告诉用户

Anthropic试图解决屏幕延迟问题,悄悄把Reasoning Effort(推理努力程度)从High降到Medium,没有任何公告。结果AI确实响应更快了,但它选择了"最省事的出路"而非"最准确的方案"。

想象一下,如果你的客户当时正用Claude分析关键数据——他们得到的答案可能并非最优,却浑然不觉。

失误二:一个缓存Bug让Claude"失忆"

打开网易新闻 查看精彩图片

缓存系统里有个小Bug,本该在会话过期时只运行一次,结果每次新对话轮次都触发。后果是:Claude每次开始新回合就忘掉整个对话上下文

如果你觉得同一段对话里得反复解释自己,或者它像没听见你说话一样循环回到相同答案,就是这个Bug在作祟。

失误三:强制缩短回答导致信息缺失

Anthropic团队加了一条系统提示词来减少冗长、节省Token。副作用是Claude开始砍掉必要的推理步骤和关键细节。输出质量,尤其是编程方面,出现了可测量的下滑。

这敲了一记警钟:未经真实用户测试就优化成本,长期往往付出更高代价。

好消息:问题已全部修复,Anthropic退还了使用额度

截至2026年4月20日,三个问题已在v2.1.116补丁中完全修复。Reasoning Effort恢复为High,Opus 4.7特别设为"xhigh"作为补偿。缓存Bug被消灭,限制性提示词也已移除。

此外,Anthropic从4月23日起向所有订阅者退还了使用额度,作为实质性的道歉。更有意思的是,他们还公开了这份复盘——在AI行业普遍对模型行为变化讳莫如深的当下,这种透明度相当罕见。