每个用大模型构建设施的团队都会撞上这一刻——API账单突然到账,有人开口问“为什么费用这么高?”,全场却没人能给出答案,因为此前根本没人盯着。我们并非莽撞行事,只是不停地在开发:加AI功能、迭代提示词、上线,成本讨论永远被推后。直到“以后”真的来了……我们决定彻查。

团队里有个叫 divergence-detector.js 的服务,每晚自动运行,找出ETF资金流信号与底层板块信号相矛盾的情况,并为每次背离生成两句通俗易懂的英文解释。核心调用就这么简单:model: 'claude-sonnet-4-6', max_tokens: 150。我们竟然用了Anthropic的中级推理模型——输出价格每百万token高达15美元——只为生成上限150个token、区区两句话的输出,夜夜如此。而 claude-haiku-4-5 每百万token只需4美元,处理这种结构化的短解释质量完全一致。这意味着每一次调用我们都多付了2.75倍的冤枉钱,持续数周,无人察觉。

打开网易新闻 查看精彩图片

这不是我们独有的失误,这是结构性问题。刚开始用大模型时,团队总会默认选最强的模型,它能产出最好的效果。快速迭代阶段顾不上优化,成本显得很抽象。然后功能上线,一切正常,你就转去忙下一件事了——那个模型选择变成了地基,谁都怕一动就坏。成本就在后台无声地复利增长。数据库查询会定期评审,AI API调用却从未被纳入视野。当大家终于坐下来拆解账单时,才发现这种用大炮打蚊子的事反复发生,沉淀出的浪费比所有人预想的都要刺痛。