Anthropic把缓存寿命砍了12倍，用户月费200美元却连发两条消息都卡壳

灰度测试中

2026-04-14 08:18 ·北京

上个月，Anthropic悄悄把Claude Code的提示缓存（prompt cache）存活时间从1小时砍到5分钟。官方说"不该增加成本"，但付费用户发现配额消耗速度明显变快——有人200美元月费用了半年没触顶，3月突然频繁撞墙。

缓存是AI编程助手的隐形油耗表。它把用户反复发送的代码上下文存起来，避免重复计算。读缓存的价格只有基础价的10%，但写缓存要额外付费：5分钟档贵25%，1小时档贵100%。Anthropic工程师Jarred Sumner的解释是，Claude Code的客户端自动决定用哪档，"很多请求只用一次就扔，5分钟更划算"。

用户Sean Swanson的追踪数据还原了时间线：2月1日前后上线1小时缓存，3月7日左右回退到5分钟。他在Bug报告里写道："5分钟TTL对Claude Code的典型使用场景——长会话、高上下文——惩罚太重了。"

长会话用户的成本黑洞

长会话用户的成本黑洞

Swanson的反驳点很具体：子代理（subagent）确实受益于5分钟缓存的低写入成本，因为它们交互快、"缓存几乎不会过期"。但主会话不同——开发者常让Claude Code开着几小时，中间去开会、吃饭、睡觉。回来继续聊，缓存早没了。

Claude Code创造者Boris Cherny补了一刀："用100万token上下文窗口时，缓存未命中很贵……离开电脑超1小时再回来，经常是全量重建。"他透露Anthropic正在调研默认40万token、可选100万的方案，配置项其实已经存在。

上下文膨胀是隐形推手。Cherny观察到现在用户"拉入大量技能文件，或者跑很多代理和后台自动化"，会话体积自然水涨船高。窗口越大，缓存未命中的代价越惊人。

配额焦虑蔓延到Pro档

配额焦虑蔓延到Pro档

Reddit和Discord上的开发者反馈更尖锐：Pro用户（20美元/月）有人5小时内只能发两条消息。缓存重建和未命中被指为配额杀手，但Anthropic没有公开确认这一关联。

Sumner的回应停留在个案层面——他认可Swanson的"侦探工作"，但坚持5分钟策略让Claude Code"更便宜"。没有全局设置的计划，意味着用户无法自主切换1小时模式。

Swanson的修订分析留了个活口：承认子代理场景的计算优势，但个人体验是"额外燃烧速率让曾经很棒的服务变得难用"。从"从未触顶"到"频繁撞墙"，体感变化发生在3月，与缓存策略回退的时间线吻合。

自动化的代价谁来定

自动化的代价谁来定

这场争议的底层张力是：Anthropic用客户端算法替用户做成本权衡，但不同工作流的代价差异巨大。子代理友好的方案，对长会话人类用户可能是负优化。

Cherny提到的40万token默认方案是个折中信号——缩小窗口降低单次未命中成本，同时保留百万选项给确有需要的人。但缓存TTL的决策权仍在Anthropic手里，用户只能被动接受"自动"结果。

Swanson的200美元订阅经历和Pro用户的"两条消息"困境，指向同一个问题：当AI编码工具从尝鲜玩具变成生产依赖，成本结构的透明度会不会成为竞争壁垒？OpenAI的Codex、Cursor们正在旁边看着。

如果长会话高上下文是Claude Code的核心卖点，那么让用户为"自动优化"买单却说不清账，算产品自信还是定价模糊？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴