Claude缓存缩水12倍：你的API账单正在悄悄变厚

报错免疫体

2026-04-21 14:58 ·北京

凌晨三点，你的文档处理管道突然报警——成本暴涨47%。你查遍代码没改逻辑，直到发现Anthropic在2026年初把提示缓存（prompt caching）的生存时间从60分钟砍到5分钟。这不是bug，是产品设计决策。但谁该为此买单？

缓存经济学：从"写一次读二十次"到"写一次读两次"

Claude的提示缓存机制原本是个成本杀手。系统提示、长文档、工具定义这些"预填充词元"（prefill tokens）只需写一次，后续请求按正常输入价格的约10%计费。

以Claude Sonnet 4.6为例，1万词元的系统提示：

60分钟TTL时代：写一次$0.0375，20次读取$0.06，21次请求总计$0.0975。不用缓存要$0.63，节省84%。

5分钟TTL时代：同样的工作负载只能撑3次请求。写一次$0.0375，2次读取$0.006，总计$0.0435。不用缓存$0.09，节省52%。

有效节省率从80%+断崖跌到40-55%。这不是比例游戏——是架构假设被推翻。

谁最疼？四类受害者的画像

批量处理管道首当其冲。文档 bursts 之间间隔超过5分钟？缓存冷启动，每次burst重新写。

Cron定时代理（cron-based agents）曾是60分钟TTL的完美用户。15-30分钟跑一次？现在几乎每次调用都要重写缓存。

长会话聊天应用。用户离开10分钟回来说句话，缓存没了，下一条消息重新付写缓存溢价。

开发测试环境。请求稀疏，以前默认缓存温热，现在默认冰冷。

正方：Anthropic的算盘

从平台视角，5分钟TTL有其合理性。

基础设施成本重新对齐。缓存不是免费的——GPU显存占用、分布式一致性维护、多区域复制，这些成本被60分钟TTL长期低估。

防止"僵尸缓存"堆积。生产环境中大量缓存写入后只读一两次，却占用资源一小时。TTL缩短倒逼客户端显式管理生命周期。

定价模型更诚实。以前"节省84%"是平台补贴的结果，现在52%更接近真实边际成本。

技术债转移的合理性。Anthropic从未承诺永久60分钟，服务条款保留调整权利。用户依赖未文档化的"慷慨"本身就是风险。

反方：架构契约的隐性违约

但批评者指出这是经典的平台权力滥用。

无预警变更的破坏性。"quietly changed"——没有邮件通知，没有博客公告，没有版本号 bump。生产环境的成本模型被单方面重写。

优化努力的沉没成本。过去18个月，社区围绕60分钟TTL发展出一套最佳实践：缓存预热策略、请求批调度、会话保活机制。这些代码现在成了负资产。

竞争不对称。OpenAI的GPT-4缓存TTL仍是未公开的更长周期，Google Gemini的上下文缓存策略更激进。Anthropic此举可能驱赶价格敏感型用户。

透明度赤字。变更时间点（2026年初）、决策依据、是否A/B测试过用户流失——全部缺失。平台治理的黑箱化。

我的判断：这不是价格战，是产品定义的争夺

双方都有理，但核心矛盾被忽视了。

提示缓存的本质是什么？是"基础设施"还是"优化功能"？Anthropic把它从"慷慨的默认"重新定义为"需要主动管理的资源"，这是产品边界的根本位移。

对技术决策者，这意味着三件事。

第一，缓存策略必须从"配置项"升级为"架构层"。5分钟TTL迫使你显式设计缓存生命周期，而非依赖平台善意。代码示例中的keepalive ping（每4分钟发送轻量请求重置TTL）是权宜之计，更是技术债务。

第二，多云缓存抽象成为必要。把缓存绑定到单一LLM提供商的TTL策略，风险过高。考虑在应用层自建语义缓存，或用Redis等外部存储缓存嵌入向量（embedding vectors）和上下文片段，减少对Claude原生缓存的依赖。

第三，成本监控粒度要下沉到缓存命中率。以前"用缓存就行"的粗放管理，现在要追踪：写缓存频率、读缓存次数、TTL过期导致的冷启动比例。这些指标应该进你的可观测性仪表盘。

这件事的重要性在于：它预示了LLM基础设施的成熟方向——从"吸引迁移的甜蜜期"进入"精细化运营的正价期"。早期采用者享受的隐性补贴正在收回，平台开始按真实成本定价。

你的应对不是抱怨TTL变短，而是重新计算：在5分钟约束下，哪些工作负载仍值得缓存？哪些应该放弃缓存、直接走标准API？哪些需要重构为持续流式会话而非离散请求？

答案取决于你的请求模式，而非平台默认值。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴