打开网易新闻 查看精彩图片

2847美元的月账单,43%是冤枉钱。这个数字来自一位开发者的真实审计,他原本只是想搞清楚"钱到底花哪了",结果挖出一堆让人脸红的操作失误。

大模型API的计费黑箱,像极了老式电表——月底给你个总数,但空调、冰箱、热水器各用了多少?自己猜。OpenAI和Anthropic的后台只展示总金额,开发者只能对着数字发呆。

于是他写了个工具。两周后,数据摊在眼前:34%的调用是重复请求,85%的分类任务在浪费算力,一个六行代码的修复就能省140美元/月。

34%的调用在"复读":一个格式错误烧掉140美元

问题出在JSON解析上。他的摘要生成器要求模型返回纯JSON,但GPT-4o习惯性把输出包在markdown代码块里——前后加上```json和```。

解析器不认这个格式,直接报错。代码进入重试循环,同样的请求再发一次。再报错。再发。每次重试都是完整计费,包括输入token和输出token

修复简单到可笑:在prompt里加一句"不要添加markdown格式"。六行代码的改动,月省140美元。这个bug存在了数月,因为账单里根本看不出"重试"和"正常调用"的区别。

更隐蔽的是缓存缺失。他的分类器每周处理847次调用,其中723次输入完全相同——"这篇文章是科技类吗?"问了几百遍,每次付全款。没有缓存层,没有结果复用,系统像金鱼一样失忆。

加个字典缓存,月省310美元。这是计算机科学101的内容,但在大模型时代被集体遗忘——大家忙着调prompt,忘了基础工程。

模型选型傲慢:用GPT-4o做二分类,每月白扔71美元

模型选型傲慢:用GPT-4o做二分类,每月白扔71美元

他的分类任务输出固定五种标签之一,每次响应不超过10个token。却调用了全量GPT-4o。

GPT-4o-mini在相同测试集上给出完全一致的结果,成本差一个数量级。这不是能力问题,是惯性问题——项目启动时用了4o,之后没人质疑过这个选择。

账单不会提醒你"这个任务可以用更便宜的模型"。它只会安静地扣款,直到有人主动审计。

上下文膨胀是第四个出血点。他的聊天机器人把完整对话历史塞进每次调用,第20轮时输入token达到3200个,且持续增长。但有效信息只在最后几条消息里。

截断到最近5条,月省155美元。用户感知不到差异,因为早期对话对当前回复的影响本就微弱。

工具开源:两行代码接入,SQLite本地存储

工具开源:两行代码接入,SQLite本地存储

他把审计流程打包成Python CLI工具llm-spend-profiler。接入成本是两行代码:

```python
from llm_cost_profiler import wrap
from openai import OpenAI
client = wrap(OpenAI())
```

原有代码无需改动。所有调用静默写入本地SQLite数据库,失败时不影响主流程。Anthropic SDK同样支持。

运行llmcost report后,输出按功能模块拆分:摘要生成占48.7%,聊天机器人24%,分类器10.5%。警告栏用emoji标记异常:⚠️ 重试率过高、上下文膨胀、模型选型不当。

这种可视化在官方后台不存在。OpenAI的Usage页面按API key聚合,Anthropic类似——适合财务对账,不适合工程优化。

行业盲区:当"按token计费"变成认知陷阱

行业盲区:当"按token计费"变成认知陷阱

大模型API的定价设计强化了某种幻觉:输入便宜、输出贵,长文本要小心。但真正的浪费藏在工程细节里——重试风暴、缓存缺失、模型错配、上下文管理失控。

这些不是算法问题,是基础设施问题。就像早期云计算时代,大家突然发现自己为闲置EC2实例支付了数百万美元,只因为忘了关自动扩缩容。

区别在于,AWS后来提供了详细的成本分析工具。大模型厂商目前还没有同等力度的透明度——也许因为43%的浪费率,某种程度上符合他们的商业利益。

这位开发者把工具开源在GitHub。README里没有"革命性"或"颠覆性"的字眼,只有一行说明:"我每月省了1240美元,你可能也在犯同样的错误。"

你的账单里,有多少比例经得起这种审计?