Anthropic账单让我多付了47%：一个程序员把4个AI工具塞进本地代理后，账单变了

固件更新中

2026-04-13 12:26 ·北京

三个月前，我的AI工具账单像一团黑雾。每月Anthropic扣一笔，OpenAI扣一笔，我付完钱就走，从没想过那些token到底花在了哪儿。

直到我把某个月的账单逐行拆开——才发现自己像个在赌场里不看筹码的赌徒。

账单黑箱：开发者成了"付费盲盒"玩家

账单黑箱：开发者成了"付费盲盒"玩家

当时我的配置是典型极客套装：Claude Code、Codex CLI、Gemini CLI，再加一个聊天UI应急。四个工具，四条管道，资金流向完全不可追踪。

供应商给的账单只告诉你"claude-sonnet-4-6消耗了240万token"，却不告诉你：这些token是代码审查烧掉的？重构烧掉的？还是随手补全烧掉的？

更坑的是路由不透明。Claude Code到底调了Sonnet还是Opus？Gemini CLI后台在跑哪个模型？我不知道，也没法知道。

优化需要可测量，但现有仪表盘是给财务看的，不是给开发者做决策的。

CliGate：在流量必经之地插了根吸管

CliGate：在流量必经之地插了根吸管

我做了个本地代理CliGate，卡在工具和上游API之间。四个工具全部指向localhost:8081，凭证、路由、计费，一个出口统一管理。

这个位置选得很刁钻——所有请求必须路过，所有数据必须暴露。

代理知道：谁发的请求、要的什么模型、回来多少token、每token什么价。数学简单，但视野突然清晰。

跑了一周正常开发，仪表盘长这样：

Anthropic API —— $4.82，68%

ChatGPT Account —— $0.00，0%（账户池，无API成本）

Free (Kilo AI) —— $0.00，0%（已路由至DeepSeek/Qwen）

OpenAI API —— $2.27，32%

模型层更耐人寻味：

claude-sonnet-4-6 —— $4.21，59%

claude-haiku-4-5 —— $0.00，0%（免费路由激活）

gpt-4o —— $1.89，27%

codex-mini —— $0.38，5%

那个haiku的零蛋让我停下了鼠标。

免费路由：把"便宜"模型换成"不要钱"的

免费路由：把"便宜"模型换成"不要钱"的

CliGate有个功能叫free model routing。当请求要claude-haiku-4-5时，代理不往Anthropic发，而是转向Kilo AI提供的免费模型——DeepSeek R1、Qwen3、MiniMax，你配哪个就哪个，不用API key。

我开这个功能纯属实验心态。一周后看数据：所有快速提问、短补全、"这个函数干嘛用的"——全走了免费通道。

质量呢？坦白说，对于三类任务我感知不到差距：单行代码解释、变量命名建议、简单正则调试。这些占我日常交互的60%以上。

不是免费模型变强了，是我终于能按任务难度分仓——而不是把所有请求扔进最贵的桶。

但这里有个反直觉的发现：免费路由省下的不只是haiku那档钱，它还逼我重新审视什么任务"配得上"Sonnet。

以前我懒得想，反正Claude Code默认走Sonnet。现在代理让我看见每笔开销，选择成本从隐性变成了显性。

路由策略：从"一键无脑"到"分层调度"

路由策略：从"一键无脑"到"分层调度"

CliGate的配置文件支持按工具、按任务类型、甚至按代码文件大小路由。我的现行策略：

Claude Code —— 复杂重构、跨文件分析、架构讨论，走Sonnet

Codex CLI —— 批量生成、测试文件、脚手架代码，走gpt-4o-mini或免费模型

聊天UI —— 90%走免费路由，只有涉及敏感代码时才切回付费模型

这个分层不是拍脑袋定的。跑了两周后我发现：Codex CLI生成的单元测试，免费模型和gpt-4o的通过率差距不到5%，但成本差了一个数量级。

那5%的gap，手动修一下比付API钱快多了。

更意外的是Gemini CLI——我原本以为Google的定价会让我多一个选项，结果它的token计量方式和Anthropic/OpenAI不兼容，CliGate暂时没法统一追踪。它现在处于"账单孤岛"状态，反而成了我最少用的工具。

可见性即权力。看不见成本，就不会优化。

本地模型的最后一块拼图

本地模型的最后一块拼图

文章开头提到我把Claude Code指向了本地Ollama模型，三分钟搞定。这件事和CliGate是同一套逻辑：把控制权从云端供应商手里拿回来。

Ollama跑的是Qwen3-8B，处理简单补全足够。Claude Code通过OpenAI兼容接口连接，感知不到后端换了人。

延迟确实高了——本地GPU推理比API慢3-5秒，但敏感代码不用出本机，这个trade-off很多团队愿意做。

CliGate把这条管道也纳入了统一视图：本地模型显示为$0.00，但token消耗照样统计。我因此发现自己有12%的请求其实可以本地解决，之前全送给了Anthropic。

一个未被回答的问题

一个未被回答的问题

现在我的仪表盘每周稳定输出数据。我知道哪类任务烧钱，哪个工具在偷懒，哪个模型名不副实。

但有个数据让我不安：Sonnet的$4.21里，有多少是真正需要它的认知能力，有多少只是因为我懒得在Claude Code里敲/model切换？

代理给了我 visibility，但没给我 discipline。省钱的上限取决于我改变习惯的意愿，而习惯是最贵的沉没成本。

你的工具账单，最后一次细看是什么时候？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴