Anthropic 服软了！长文复盘 Claude Code 三大 bug，全员额度重置！

新浪财经

2026-04-24 19:12 ·北京 ·优质财经领域创作者

来源：市场资讯

（来源：AI信息Gap）

Anthropic 服软了。

过去一个多月，关于 Claude Code「降智」的吐槽就没听过。

刚刚，Anthropic 官方发布了一篇长文，承认确实出了问题。三个 bug，一路从 3 月 4 日到 4 月 20 日。

重点来了，「作为补偿，所有 Claude 订阅用户的额度重置。」

事情要从 4 月初说起。

AMD 的 AI 负责人 Stella Laurenzo，在 GitHub 上创建了一个 issue。

她上传了一份量化分析报告，基于自己团队 6852 个 Claude Code 会话日志。结论是，Claude Opus 4.6 在 Claude Code 里的思考深度，从 2 月下旬起跌了 67%。

Claude Code 负责人 Boris Cherny 当时亲自下场回应，但没把话说死。提出了几个改动，没有承认模型真的变差。

接下来两周，GitHub 和 AI 社区的吐槽越来越多。甚至有团队直接把 Claude 用量从 80% 砍到了 20%。

眼看这泼天的流量就要飞走，Anthropic 官方坐不住了。长文的开头是这么写的。

「过去一个月，我们一直在调查 Claude 智商降低这件事。目前来看，这是由三个独立的改动造成的。」

影响了 Claude Code、Agent SDK 和 Cowork。API 不受影响。

三个 bug，一个一个来说。

01｜把默认思考等级偷偷调成了 medium

3 月 4 日，Anthropic 把 Claude Code 的默认思考等级从 high 调成了 medium。

Claude Code 允许调节思考强度。等级越高，模型想得越深，答案越全面，延迟也越高。

Anthropic 说，「当时的担心是，high 模式下 Claude 会想太久，UI 看起来像卡死了。换成 medium，大部分任务延迟都能短不少。」

上线那天，Claude Code 还弹了个提示。「我们建议你用 medium。」

大部分用户看到提示后，就把 medium 当默认等级了。

然后问题来了。

开发者要的不是更快的 medium，是会认真思考、能真正解决问题的 high。抱怨越来越多，4 月 7 日 Anthropic 把默认甚至改了回来。

Opus 4.7 现在默认 xhigh。其他所有模型默认 high。

这是 Anthropic 自己放出来的对比图。Opus 4.7 的 xhigh 准确率有 71%，Opus 4.6 的 medium 只有 48%。

默认等级一砍，分数差了 20 多个百分点。

02｜一个缓存优化，让 Claude 边干边忘

3 月 26 日，Anthropic 上线了一个缓存优化。

Claude Code 靠提示缓存（Prompt Caching）技术给连续对话加速。如果一个会话空闲一段时间没人用，缓存会被清理。下次再打开，就得重新发送一次完整提示词，又贵又慢。

Anthropic 当时想的是，「既然缓存已经没了，干脆顺手把老的思考内容也砍掉。反正这些内容在会话恢复时也用不上，扔了还能省 token。」

目标是，空闲超过 1 小时的会话在恢复时，清一次之前的思考记录。注意，一次就够。

实际上线的 bug 是这样。每一次 API 请求都在清。

来看这张官方对比图。右边是 bug 版本。本该保留的思考内容，每一轮都在被丢掉。

结果 Claude 干着干着就忘了自己之前为什么要干这个。用户感受到的就是，它会重复、会忘事、会选奇怪的工具。

边干边忘还有一个副作用。思考内容被扔掉之后，提示缓存也跟着失效。这就是为什么有用户抱怨「额度消耗比预期快」。

这个 bug 4 月 10 日在 v2.1.101 版本被修复了。

还有一个细节。Anthropic 后来用代码审查（Code Review）工具回头测试这个 bug。

用 Opus 4.7，bug 成功找出来了。

用 Opus 4.6，找不出来。

正好说明 Opus 4.6 被降智了。

03｜系统提示词多加了一句「别啰嗦」

4 月 16 日，Opus 4.7 发布。

这个模型有个特点，话痨。一个问题能回答很长，tokens 烧得很快。

Anthropic 在 Claude Code 的系统提示词里加了这么一条。

「Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.」

工具调用之间的话别超过 25 个词。最终回答不超过 100 个词，除非任务真的需要。

目标是让 Claude 回复短一点，省 token。

然后意外出现了。

就这一句话，让 Opus 4.6 和 Opus 4.7 的编程能力同时下降了 3 个百分点。

编程这事，思考本身就是解题重要的一部分。强行让模型「少写点」，等于逼它少想点。

4 月 20 日的 v2.1.116，直接把这一条系统提示词干掉了。

Claude Code 负责人 Boris Cherny 补充说道。

「这可能是我遇到的最复杂的一次排查。根本原因藏得很深，还有一堆干扰项。」

三个 bug 各自影响不同用户、在不同时间段、用不同方式触发。叠加起来看就是一种「广泛但不一致的降智」。

Anthropic 内部自己没检查出来。直到用户在 /feedback 里贴了具体可复现的例子，他们才锁定到这三个 bug。

顺带说一嘴，Opus 4.7 本身在 Claude Code 里还有其他吐槽，Boris 说「团队还在修。」

Anthropic 承诺的改进里有这么几条。

内部员工以后用和外部用户一模一样的 Claude Code 版本，不再用内部特供版。

系统提示词的改动，要做更大范围的评估，逐行做消融实验。

任何可能牺牲模型智商的改动，都要先小范围灰度，再全量推送。

作为补偿，从今天起，所有 Claude Code 订阅用户的使用额度重置。

重置额度，OpenAI 的 Codex 最有经验了。

光这周，没记错的话，Codex 就重置了 2 次额度。

这次，Anthropic 终于也跟进了。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴