来源:市场资讯
(来源:AI信息Gap)
Anthropic 服软了。
过去一个多月,关于 Claude Code「降智」的吐槽就没听过。
刚刚,Anthropic 官方发布了一篇长文,承认确实出了问题。三个 bug,一路从 3 月 4 日到 4 月 20 日。
重点来了,「作为补偿,所有 Claude 订阅用户的额度重置。」
事情要从 4 月初说起。
AMD 的 AI 负责人 Stella Laurenzo,在 GitHub 上创建了一个 issue。
她上传了一份量化分析报告,基于自己团队 6852 个 Claude Code 会话日志。结论是,Claude Opus 4.6 在 Claude Code 里的思考深度,从 2 月下旬起跌了 67%。
Claude Code 负责人 Boris Cherny 当时亲自下场回应,但没把话说死。提出了几个改动,没有承认模型真的变差。
接下来两周,GitHub 和 AI 社区的吐槽越来越多。甚至有团队直接把 Claude 用量从 80% 砍到了 20%。
眼看这泼天的流量就要飞走,Anthropic 官方坐不住了。长文的开头是这么写的。
「过去一个月,我们一直在调查 Claude 智商降低这件事。目前来看,这是由三个独立的改动造成的。」
影响了 Claude Code、Agent SDK 和 Cowork。API 不受影响。
三个 bug,一个一个来说。
01|把默认思考等级偷偷调成了 medium
3 月 4 日,Anthropic 把 Claude Code 的默认思考等级从 high 调成了 medium。
Claude Code 允许调节思考强度。等级越高,模型想得越深,答案越全面,延迟也越高。
Anthropic 说,「当时的担心是,high 模式下 Claude 会想太久,UI 看起来像卡死了。换成 medium,大部分任务延迟都能短不少。」
上线那天,Claude Code 还弹了个提示。「我们建议你用 medium。」
大部分用户看到提示后,就把 medium 当默认等级了。
然后问题来了。
开发者要的不是更快的 medium,是会认真思考、能真正解决问题的 high。抱怨越来越多,4 月 7 日 Anthropic 把默认甚至改了回来。
Opus 4.7 现在默认 xhigh。其他所有模型默认 high。
这是 Anthropic 自己放出来的对比图。Opus 4.7 的 xhigh 准确率有 71%,Opus 4.6 的 medium 只有 48%。
默认等级一砍,分数差了 20 多个百分点。
02|一个缓存优化,让 Claude 边干边忘
3 月 26 日,Anthropic 上线了一个缓存优化。
Claude Code 靠提示缓存(Prompt Caching)技术给连续对话加速。如果一个会话空闲一段时间没人用,缓存会被清理。下次再打开,就得重新发送一次完整提示词,又贵又慢。
Anthropic 当时想的是,「既然缓存已经没了,干脆顺手把老的思考内容也砍掉。反正这些内容在会话恢复时也用不上,扔了还能省 token。」
目标是,空闲超过 1 小时的会话在恢复时,清一次之前的思考记录。注意,一次就够。
实际上线的 bug 是这样。每一次 API 请求都在清。
来看这张官方对比图。右边是 bug 版本。本该保留的思考内容,每一轮都在被丢掉。
结果 Claude 干着干着就忘了自己之前为什么要干这个。用户感受到的就是,它会重复、会忘事、会选奇怪的工具。
边干边忘还有一个副作用。思考内容被扔掉之后,提示缓存也跟着失效。这就是为什么有用户抱怨「额度消耗比预期快」。
这个 bug 4 月 10 日在 v2.1.101 版本被修复了。
还有一个细节。Anthropic 后来用代码审查(Code Review)工具回头测试这个 bug。
用 Opus 4.7,bug 成功找出来了。
用 Opus 4.6,找不出来。
正好说明 Opus 4.6 被降智了。
03|系统提示词多加了一句「别啰嗦」
4 月 16 日,Opus 4.7 发布。
这个模型有个特点,话痨。一个问题能回答很长,tokens 烧得很快。
Anthropic 在 Claude Code 的系统提示词里加了这么一条。
「Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.」
工具调用之间的话别超过 25 个词。最终回答不超过 100 个词,除非任务真的需要。
目标是让 Claude 回复短一点,省 token。
然后意外出现了。
就这一句话,让 Opus 4.6 和 Opus 4.7 的编程能力同时下降了 3 个百分点。
编程这事,思考本身就是解题重要的一部分。强行让模型「少写点」,等于逼它少想点。
4 月 20 日的 v2.1.116,直接把这一条系统提示词干掉了。
Claude Code 负责人 Boris Cherny 补充说道。
「这可能是我遇到的最复杂的一次排查。根本原因藏得很深,还有一堆干扰项。」
三个 bug 各自影响不同用户、在不同时间段、用不同方式触发。叠加起来看就是一种「广泛但不一致的降智」。
Anthropic 内部自己没检查出来。直到用户在 /feedback 里贴了具体可复现的例子,他们才锁定到这三个 bug。
顺带说一嘴,Opus 4.7 本身在 Claude Code 里还有其他吐槽,Boris 说「团队还在修。」
Anthropic 承诺的改进里有这么几条。
内部员工以后用和外部用户一模一样的 Claude Code 版本,不再用内部特供版。
系统提示词的改动,要做更大范围的评估,逐行做消融实验。
任何可能牺牲模型智商的改动,都要先小范围灰度,再全量推送。
作为补偿,从今天起,所有 Claude Code 订阅用户的使用额度重置。
重置额度,OpenAI 的 Codex 最有经验了。
光这周,没记错的话,Codex 就重置了 2 次 额度。
这次,Anthropic 终于也跟进了。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
热门跟贴