我每月烧掉1240美元：OpenAI账单里藏着的4个低级错误

我是一个粉刷匠2

2026-04-05 19:14 ·北京

2847美元的月账单，43%是冤枉钱。这个数字来自一位开发者的真实审计，他原本只是想搞清楚"钱到底花哪了"，结果挖出一堆让人脸红的操作失误。

大模型API的计费黑箱，像极了老式电表——月底给你个总数，但空调、冰箱、热水器各用了多少？自己猜。OpenAI和Anthropic的后台只展示总金额，开发者只能对着数字发呆。

于是他写了个工具。两周后，数据摊在眼前：34%的调用是重复请求，85%的分类任务在浪费算力，一个六行代码的修复就能省140美元/月。

34%的调用在"复读"：一个格式错误烧掉140美元

问题出在JSON解析上。他的摘要生成器要求模型返回纯JSON，但GPT-4o习惯性把输出包在markdown代码块里——前后加上```json和```。

解析器不认这个格式，直接报错。代码进入重试循环，同样的请求再发一次。再报错。再发。每次重试都是完整计费，包括输入token和输出token。

修复简单到可笑：在prompt里加一句"不要添加markdown格式"。六行代码的改动，月省140美元。这个bug存在了数月，因为账单里根本看不出"重试"和"正常调用"的区别。

更隐蔽的是缓存缺失。他的分类器每周处理847次调用，其中723次输入完全相同——"这篇文章是科技类吗？"问了几百遍，每次付全款。没有缓存层，没有结果复用，系统像金鱼一样失忆。

加个字典缓存，月省310美元。这是计算机科学101的内容，但在大模型时代被集体遗忘——大家忙着调prompt，忘了基础工程。

模型选型傲慢：用GPT-4o做二分类，每月白扔71美元

模型选型傲慢：用GPT-4o做二分类，每月白扔71美元

他的分类任务输出固定五种标签之一，每次响应不超过10个token。却调用了全量GPT-4o。

GPT-4o-mini在相同测试集上给出完全一致的结果，成本差一个数量级。这不是能力问题，是惯性问题——项目启动时用了4o，之后没人质疑过这个选择。

账单不会提醒你"这个任务可以用更便宜的模型"。它只会安静地扣款，直到有人主动审计。

上下文膨胀是第四个出血点。他的聊天机器人把完整对话历史塞进每次调用，第20轮时输入token达到3200个，且持续增长。但有效信息只在最后几条消息里。

截断到最近5条，月省155美元。用户感知不到差异，因为早期对话对当前回复的影响本就微弱。

工具开源：两行代码接入，SQLite本地存储

工具开源：两行代码接入，SQLite本地存储

他把审计流程打包成Python CLI工具llm-spend-profiler。接入成本是两行代码：

```python
from llm_cost_profiler import wrap
from openai import OpenAI
client = wrap(OpenAI())
```

原有代码无需改动。所有调用静默写入本地SQLite数据库，失败时不影响主流程。Anthropic SDK同样支持。

运行llmcost report后，输出按功能模块拆分：摘要生成占48.7%，聊天机器人24%，分类器10.5%。警告栏用emoji标记异常：⚠️ 重试率过高、上下文膨胀、模型选型不当。

这种可视化在官方后台不存在。OpenAI的Usage页面按API key聚合，Anthropic类似——适合财务对账，不适合工程优化。

行业盲区：当"按token计费"变成认知陷阱

行业盲区：当"按token计费"变成认知陷阱

大模型API的定价设计强化了某种幻觉：输入便宜、输出贵，长文本要小心。但真正的浪费藏在工程细节里——重试风暴、缓存缺失、模型错配、上下文管理失控。

这些不是算法问题，是基础设施问题。就像早期云计算时代，大家突然发现自己为闲置EC2实例支付了数百万美元，只因为忘了关自动扩缩容。

区别在于，AWS后来提供了详细的成本分析工具。大模型厂商目前还没有同等力度的透明度——也许因为43%的浪费率，某种程度上符合他们的商业利益。

这位开发者把工具开源在GitHub。README里没有"革命性"或"颠覆性"的字眼，只有一行说明："我每月省了1240美元，你可能也在犯同样的错误。"

你的账单里，有多少比例经得起这种审计？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴