上个月,Anthropic悄悄把Claude Code的提示缓存(prompt cache)存活时间从1小时砍到5分钟。官方说"不该增加成本",但付费用户发现配额消耗速度明显变快——有人200美元月费用了半年没触顶,3月突然频繁撞墙。
缓存是AI编程助手的隐形油耗表。它把用户反复发送的代码上下文存起来,避免重复计算。读缓存的价格只有基础价的10%,但写缓存要额外付费:5分钟档贵25%,1小时档贵100%。Anthropic工程师Jarred Sumner的解释是,Claude Code的客户端自动决定用哪档,"很多请求只用一次就扔,5分钟更划算"。
用户Sean Swanson的追踪数据还原了时间线:2月1日前后上线1小时缓存,3月7日左右回退到5分钟。他在Bug报告里写道:"5分钟TTL对Claude Code的典型使用场景——长会话、高上下文——惩罚太重了。"
长会话用户的成本黑洞
Swanson的反驳点很具体:子代理(subagent)确实受益于5分钟缓存的低写入成本,因为它们交互快、"缓存几乎不会过期"。但主会话不同——开发者常让Claude Code开着几小时,中间去开会、吃饭、睡觉。回来继续聊,缓存早没了。
Claude Code创造者Boris Cherny补了一刀:"用100万token上下文窗口时,缓存未命中很贵……离开电脑超1小时再回来,经常是全量重建。"他透露Anthropic正在调研默认40万token、可选100万的方案,配置项其实已经存在。
上下文膨胀是隐形推手。Cherny观察到现在用户"拉入大量技能文件,或者跑很多代理和后台自动化",会话体积自然水涨船高。窗口越大,缓存未命中的代价越惊人。
配额焦虑蔓延到Pro档
Reddit和Discord上的开发者反馈更尖锐:Pro用户(20美元/月)有人5小时内只能发两条消息。缓存重建和未命中被指为配额杀手,但Anthropic没有公开确认这一关联。
Sumner的回应停留在个案层面——他认可Swanson的"侦探工作",但坚持5分钟策略让Claude Code"更便宜"。没有全局设置的计划,意味着用户无法自主切换1小时模式。
Swanson的修订分析留了个活口:承认子代理场景的计算优势,但个人体验是"额外燃烧速率让曾经很棒的服务变得难用"。从"从未触顶"到"频繁撞墙",体感变化发生在3月,与缓存策略回退的时间线吻合。
自动化的代价谁来定
这场争议的底层张力是:Anthropic用客户端算法替用户做成本权衡,但不同工作流的代价差异巨大。子代理友好的方案,对长会话人类用户可能是负优化。
Cherny提到的40万token默认方案是个折中信号——缩小窗口降低单次未命中成本,同时保留百万选项给确有需要的人。但缓存TTL的决策权仍在Anthropic手里,用户只能被动接受"自动"结果。
Swanson的200美元订阅经历和Pro用户的"两条消息"困境,指向同一个问题:当AI编码工具从尝鲜玩具变成生产依赖,成本结构的透明度会不会成为竞争壁垒?OpenAI的Codex、Cursor们正在旁边看着。
如果长会话高上下文是Claude Code的核心卖点,那么让用户为"自动优化"买单却说不清账,算产品自信还是定价模糊?
热门跟贴