Jenny Ouyang的Claude Code账单两个月跑了1600美元。她在Build to Launch newsletter里做了完整复盘,结论很干脆:提示词没问题,问题出在工具输出上。"每次Claude读取文件、运行shell命令或调用MCP服务器,完整输出都会追加到上下文里,"她写道。到第40条消息时,她在为之前所有内容重复付费——一遍又一遍。
如果你见过Claude Code"贴心地"运行git log,然后把800行合并提交记录倒进工作记忆,你就懂这个问题了。2026年开源社区聚集的解决方案是一个4MB的Rust二进制文件,叫rtk——Rust Token Killer的缩写。它坐在AI代理和shell之间,拦截嘈杂命令,在字节进入上下文窗口前返回紧凑的、对LLM友好的摘要。README声称常见开发命令可减少60-90%的token。独立用户在实际会话中报告70-89%的降幅,下文会展开。
先做个诚实声明。我们未在受控环境中自行运行这些基准测试。本文数字直接来自rtk README、项目自己的分析输出,以及开发者在生产环境运行数周的公开报告。请将其视为文档记录的行为,而非秒表实测结果。
本指南覆盖安装流程、Claude Code钩子配置、节省最显著的三个真实工作流,以及与该品类另一竞争者context-mode的并排对比。
多数Claude Code用户很晚才发现成本问题。/cost命令技术上可用,但你得记得运行,而且Anthropic自家仪表盘的滞后足够长,通常你注意到时损失已成定局。Jenny Ouyang的文章是近期几篇复盘之一——KDnuggets三月发的实操指南开头也是同一观察:"Opus每token成本是Sonnet的5倍",而大部分支出流向上下文而非生成。
Anthropic团队直接承认了这点。他们的Claude Cookbook关于上下文工程,将这门学问框定为管理长程代理工作中累积的三股流:工具结果、模型自身推理、用户消息。中间那个——模型推理——你无法轻易压缩而不损失能力。第一个——工具结果——绝对可以压缩。
这就是rtk的全部论点。用他们的话说,工具输出是"可重新获取的"。如果Claude需要数据,它可以再运行命令。把2000 token的git status输出永远存进对话历史,纯属浪费。
架构小到两句话能说清。rtk是个CLI代理:你调用rtk git status而非git status,它运行底层命令、解析输出、应用摘要规则,然后返回精简版本。Claude Code通过shell hook集成——你把rtk塞进Claude调用的shell环境里,无需修改代理本身。
热门跟贴