凌晨三点,你的文档处理管道突然报警——成本暴涨47%。你查遍代码没改逻辑,直到发现Anthropic在2026年初把提示缓存(prompt caching)的生存时间从60分钟砍到5分钟。这不是bug,是产品设计决策。但谁该为此买单?
缓存经济学:从"写一次读二十次"到"写一次读两次"
Claude的提示缓存机制原本是个成本杀手。系统提示、长文档、工具定义这些"预填充词元"(prefill tokens)只需写一次,后续请求按正常输入价格的约10%计费。
以Claude Sonnet 4.6为例,1万词元的系统提示:
60分钟TTL时代:写一次$0.0375,20次读取$0.06,21次请求总计$0.0975。不用缓存要$0.63,节省84%。
5分钟TTL时代:同样的工作负载只能撑3次请求。写一次$0.0375,2次读取$0.006,总计$0.0435。不用缓存$0.09,节省52%。
有效节省率从80%+断崖跌到40-55%。这不是比例游戏——是架构假设被推翻。
谁最疼?四类受害者的画像
批量处理管道首当其冲。文档 bursts 之间间隔超过5分钟?缓存冷启动,每次burst重新写。
Cron定时代理(cron-based agents)曾是60分钟TTL的完美用户。15-30分钟跑一次?现在几乎每次调用都要重写缓存。
长会话聊天应用。用户离开10分钟回来说句话,缓存没了,下一条消息重新付写缓存溢价。
开发测试环境。请求稀疏,以前默认缓存温热,现在默认冰冷。
正方:Anthropic的算盘
从平台视角,5分钟TTL有其合理性。
基础设施成本重新对齐。缓存不是免费的——GPU显存占用、分布式一致性维护、多区域复制,这些成本被60分钟TTL长期低估。
防止"僵尸缓存"堆积。生产环境中大量缓存写入后只读一两次,却占用资源一小时。TTL缩短倒逼客户端显式管理生命周期。
定价模型更诚实。以前"节省84%"是平台补贴的结果,现在52%更接近真实边际成本。
技术债转移的合理性。Anthropic从未承诺永久60分钟,服务条款保留调整权利。用户依赖未文档化的"慷慨"本身就是风险。
反方:架构契约的隐性违约
但批评者指出这是经典的平台权力滥用。
无预警变更的破坏性。"quietly changed"——没有邮件通知,没有博客公告,没有版本号 bump。生产环境的成本模型被单方面重写。
优化努力的沉没成本。过去18个月,社区围绕60分钟TTL发展出一套最佳实践:缓存预热策略、请求批调度、会话保活机制。这些代码现在成了负资产。
竞争不对称。OpenAI的GPT-4缓存TTL仍是未公开的更长周期,Google Gemini的上下文缓存策略更激进。Anthropic此举可能驱赶价格敏感型用户。
透明度赤字。变更时间点(2026年初)、决策依据、是否A/B测试过用户流失——全部缺失。平台治理的黑箱化。
我的判断:这不是价格战,是产品定义的争夺
双方都有理,但核心矛盾被忽视了。
提示缓存的本质是什么?是"基础设施"还是"优化功能"?Anthropic把它从"慷慨的默认"重新定义为"需要主动管理的资源",这是产品边界的根本位移。
对技术决策者,这意味着三件事。
第一,缓存策略必须从"配置项"升级为"架构层"。5分钟TTL迫使你显式设计缓存生命周期,而非依赖平台善意。代码示例中的keepalive ping(每4分钟发送轻量请求重置TTL)是权宜之计,更是技术债务。
第二,多云缓存抽象成为必要。把缓存绑定到单一LLM提供商的TTL策略,风险过高。考虑在应用层自建语义缓存,或用Redis等外部存储缓存嵌入向量(embedding vectors)和上下文片段,减少对Claude原生缓存的依赖。
第三,成本监控粒度要下沉到缓存命中率。以前"用缓存就行"的粗放管理,现在要追踪:写缓存频率、读缓存次数、TTL过期导致的冷启动比例。这些指标应该进你的可观测性仪表盘。
这件事的重要性在于:它预示了LLM基础设施的成熟方向——从"吸引迁移的甜蜜期"进入"精细化运营的正价期"。早期采用者享受的隐性补贴正在收回,平台开始按真实成本定价。
你的应对不是抱怨TTL变短,而是重新计算:在5分钟约束下,哪些工作负载仍值得缓存?哪些应该放弃缓存、直接走标准API?哪些需要重构为持续流式会话而非离散请求?
答案取决于你的请求模式,而非平台默认值。
热门跟贴