谷歌把AI成本砍到1/100，开发者集体踩坑3年才醒悟

硅屿手记

2026-04-09 17:07 ·北京

每月烧掉200美元API费用后，我终于看了眼账单明细。结果触目惊心：65%的请求根本不该用 Claude Sonnet，却在按 Sonnet 的价格付费。

这不是我的问题，是行业的通病。开发者把简单任务和复杂推理全塞进同一个模型，就像用救护车送快递——能到，但贵得离谱。

成本差100倍，质量几乎一样

成本差100倍，质量几乎一样

2026年初的真实定价：Gemini 2.5 Flash 输入 $0.15/百万 token，输出 $0.60；Claude Haiku 输入 $0.80，输出 $4.00。而大多数人在用的 Claude Sonnet？输入 $3.00，输出 $15.00。

简单摘要任务用 Sonnet 比 Flash 贵10到20倍，输出质量却看不出区别。

我的请求分布很典型：60%-70%是"提取邮件姓名""分类工单""翻译句子"这类傻瓜任务，30%才是财务分析、多步推理的硬骨头。按这个比例，混合成本能从 $8/百万 token 压到 $3-4，省50%还没动过一条提示词。

但知道该做和真去做，中间隔着一座山。

为什么没人愿意干

为什么没人愿意干

多供应商路由的工程成本太高了。你得注册 Anthropic、OpenAI、Google 三家，管三把 API 钥匙，学三种请求格式（相似但不相同），写路由逻辑，处理某家宕机时的降级，还要在三个账单后台来回切。

副业项目没人愿意搞这个。大公司也一样——选一家供应商，接受多付的钱，因为省下来的 API 费用抵不上工程师的时间成本。

我最初也是这么想的，直到月账单突破200刀才开始动手。

智能路由长什么样

智能路由长什么样

我的解法是先分类、再分流。分类器扫描每条请求的多个信号：长度、是否含代码、要不要分析推理、有没有系统提示词、对话深度多少。

基于这些信号，请求被打上四类标签之一，然后扔进对应的价格桶。简单任务去 Gemini Flash 或 Claude Haiku，复杂推理留给 Sonnet 或 GPT-4o。

这套东西后来变成了一个产品。但核心逻辑其实不复杂——难点在于把"不复杂"的事情做得足够省事，让开发者愿意从"一个模型走天下"的舒适区里出来。

成本优化这件事，行业喊了三年，真正动手的人没几个。是技术门槛太高，还是省钱的动力不够强？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴