打开网易新闻 查看精彩图片

每月烧掉200美元API费用后,我终于看了眼账单明细。结果触目惊心:65%的请求根本不该用 Claude Sonnet,却在按 Sonnet 的价格付费。

这不是我的问题,是行业的通病。开发者把简单任务和复杂推理全塞进同一个模型,就像用救护车送快递——能到,但贵得离谱。

成本差100倍,质量几乎一样

成本差100倍,质量几乎一样

2026年初的真实定价:Gemini 2.5 Flash 输入 $0.15/百万 token,输出 $0.60;Claude Haiku 输入 $0.80,输出 $4.00。而大多数人在用的 Claude Sonnet?输入 $3.00,输出 $15.00。

简单摘要任务用 Sonnet 比 Flash 贵10到20倍,输出质量却看不出区别。

我的请求分布很典型:60%-70%是"提取邮件姓名""分类工单""翻译句子"这类傻瓜任务,30%才是财务分析、多步推理的硬骨头。按这个比例,混合成本能从 $8/百万 token 压到 $3-4,省50%还没动过一条提示词。

但知道该做和真去做,中间隔着一座山。

为什么没人愿意干

为什么没人愿意干

多供应商路由的工程成本太高了。你得注册 Anthropic、OpenAI、Google 三家,管三把 API 钥匙,学三种请求格式(相似但不相同),写路由逻辑,处理某家宕机时的降级,还要在三个账单后台来回切。

副业项目没人愿意搞这个。大公司也一样——选一家供应商,接受多付的钱,因为省下来的 API 费用抵不上工程师的时间成本。

我最初也是这么想的,直到月账单突破200刀才开始动手。

智能路由长什么样

智能路由长什么样

我的解法是先分类、再分流。分类器扫描每条请求的多个信号:长度、是否含代码、要不要分析推理、有没有系统提示词、对话深度多少。

基于这些信号,请求被打上四类标签之一,然后扔进对应的价格桶。简单任务去 Gemini Flash 或 Claude Haiku,复杂推理留给 Sonnet 或 GPT-4o。

这套东西后来变成了一个产品。但核心逻辑其实不复杂——难点在于把"不复杂"的事情做得足够省事,让开发者愿意从"一个模型走天下"的舒适区里出来。

成本优化这件事,行业喊了三年,真正动手的人没几个。是技术门槛太高,还是省钱的动力不够强?