一位每月付费200欧元的开发者在Hacker News发帖质问:Claude Code是不是变蠢了?Anthropic的复盘报告证实了这不是错觉——三个明确的性能回退正在影响所有用户。
事件现场:付费用户的集体吐槽
那条Hacker News帖子的标题很直接:"Is it just me or is Claude Code getting worse?"(只有我觉得Claude Code变差了吗?)发帖人每月支付200欧元订阅费,自Claude Opus 4.6推出100万token上下文窗口以来,明显感受到性能下滑。
评论区有人甩出Anthropic官方复盘报告的链接。这份postmortem(事后分析)承认了三个具体问题:默认推理深度降低、上下文记忆衰减、系统提示词被压缩导致回复变短。
这不是用户的主观感受。这些是文档记录的变更,影响每一个Claude Code用户。
三个被确认的性能回退
Anthropic的复盘报告列出了具体的技术细节。理解这些变更是修复它们的前提。
第一,默认推理深度(reasoning effort)被调整。Claude Code在分析时变得不那么彻底,会跳过以前会执行的步骤。这不是模型能力问题,是默认配置被改了。
第二,上下文和思考保留(context/thinking retention)出现退化。智能体在同一会话中会忘记之前的指令。一个50轮对话后的Claude Code,和刚启动时的状态完全不同。
第三,系统提示词减少了冗余度(verbosity)。回复变得更短、更草率。用户得到的是精简版答案,而非完整的推理过程。
如果你发现Claude Code跳过步骤、忘记同一会话的早期指令、给出更短更简略的回答、在多文件编辑中犯更多错误——这不是你的想象。模型行为确实因系统提示词和默认设置的变更而改变。
诊断清单:四步自救方案
Anthropic在报告中提供了缓解措施。以下是经过验证的四个操作步骤。
1. 强制指定推理深度
复盘报告提到默认推理深度已变更。你可以覆盖这个设置。
在CLAUDE.md配置文件中添加:
# Reasoning Configuration
Always use extended reasoning effort for code generation and debugging tasks.
或者直接通过命令行参数传递:
claude code --reasoning-effort high
这会让Claude Code恢复之前的分析深度,代价是更高的token消耗和更长的响应时间。
2. 缩短会话周期
上下文保留退化意味着长会话衰减更快。与其继续一个50条消息的会话,不如把任务拆成更小的块。
错误做法:在一个长会话里连续执行
claude code "重构认证模块,添加测试,更新文档"
正确做法:每个任务独立启动
claude code "重构认证模块"
claude code "为认证模块添加测试"
claude code "更新认证模块文档"
每个任务获得全新的上下文窗口和完整的注意力资源。
3. 建立固定基准测试
在归咎于会话老化或提示词漂移之前,用固定的设置运行相同任务进行对比。
创建一个可重复的测试脚本:
claude code --reasoning-effort high "将此函数重构为使用async/await"
在实际代码库上运行,并周复一周地对比结果。这能区分是模型退化还是特定会话的问题。
4. 对抗冗余度压缩
如果Claude Code给出过短的回答,明确要求它展开。在提示词中添加:
"Be thorough. Include all edge cases and error handling. Don't skip steps."
("请详尽分析。包含所有边界情况和错误处理。不要跳过步骤。")
冗余度降低是系统提示词的变更——你可以通过显式指令覆盖它。
行业通病:不是Anthropic一家的问题
那位Hacker News评论者还提到了Codex的"super weird time limits"(超级奇怪的时间限制)。这并非Anthropic独有。
运行这些智能体的经济学压力是真实存在的。更长的推理深度、更大的上下文窗口、更详细的回复——每一项都直接转化为计算成本。当产品从演示阶段进入规模化运营,默认配置的保守化几乎是行业惯例。
问题在于沟通。用户为200欧元/月的订阅付费,预期的是稳定的服务质量。而厂商在后台调整默认行为时,往往不会主动告知。
Anthropic这次发布复盘报告是罕见的透明举动。更多公司选择沉默,让用户自己发现性能下滑,然后在社交媒体上互相确认"不是我一个人"。
核心判断:配置即界面
这件事的重要性在于它揭示了一个被忽视的真相:大模型产品的"界面"不只是聊天窗口,更是隐藏在系统提示词和默认参数中的配置层。
当厂商调整这些配置时,他们实际上是在无预警地改变产品功能。用户学会的不是使用一个稳定工具,而是持续追踪厂商的隐性变更并手动补偿。
对于25-40岁的科技从业者,这意味着两层行动:短期,掌握上述四步诊断法,把Claude Code调回可用状态;长期,在你的工作流中建立基准测试和版本锁定机制,把AI工具当作会漂移的依赖项来管理。
Anthropic的复盘报告发布于Claude Opus 4.6上线之后,具体日期未在原文中提及。三个性能回退已被确认,四项缓解措施经过验证。200欧元月费用户的Hacker News帖子,最终推动了这份透明度的释放。
热门跟贴