Cloudflare把80万账单砍成0：AI成本追踪的3年暗战

Ping值焦虑

2026-03-26 11:55 ·北京

200K用户、多模型聚合、第三方代理层——这三个词组合在一起，通常意味着每月一张五位数的账单和凌晨三点的对账噩梦。直到有人发现，Cloudflare AI Gateway的新功能能让这套成本追踪系统直接退休。

一个平台省下的80K美元，暴露了整个行业的集体盲区。

AI功能上线后，团队拿到的使用数据从来都是碎片化的。OpenAI控制台只显示OpenAI的调用，Anthropic只看得到自家的token消耗，Azure OpenAI又是另一套界面。BYOK（Bring Your Own Key，用户自带API密钥）模式让情况更糟——支出和使用量散落在用户自己提供的密钥里，你连谁花了多少钱都搞不清。

产品经理的日常工作变成：导出CSV，在Excel里重建视图，再手动关联上内部的标签体系和用户ID。等账单真正来的时候，已经来不及做任何成本优化了。

从"事后对账"到"实时归因"

从"事后对账"到"实时归因"

Cloudflare这次发布的Custom Reporting API（自定义报告接口），本质上是把AI Gateway变成了一个统一的数据枢纽。Pro和Enterprise计划的用户现在可以用程序化的方式，抓取所有经过Gateway的流量数据——包括那些BYOK请求。

拆解维度包括：模型类型、供应商、用户ID、自定义标签、凭证类型。这意味着你可以从同一个端点，追踪每个功能、每个终端客户、每个定价档位的成本和用量。

那个省了80K的平台案例很有意思。他们原本维护着一套独立的代理层，专门用来聚合200K+用户的多模型成本追踪。Private Beta期间，他们把成本追踪和请求管理全部迁进了AI Gateway，第三方代理直接下线。

迁移后的关键变化：用custom tags（自定义标签）和user IDs（用户标识）跨模型追踪客户用量，支出数据和推理运行位置合二为一。

代码层面的归因设计

代码层面的归因设计

新API的真正价值不在"能看到什么"，而在"能关联什么"。Cloudflare的解决方案是让开发者在请求层面埋入业务语义，让财务团队和产品团队用同一套语言理解成本。

具体做法是，在调用AI SDK或各类API时，通过providerOptions.gateway字段注入元数据：

用户ID对应你的客户体系，标签数组对应你的产品功能矩阵。

比如一个代码审查功能的生产环境调用，可以打上customer.id、customer.plan、'code-review'、'production'四个标签。后续查询时，任意组合这些维度都能拉出对应的成本明细。

这套标记机制兼容AI SDK、Chat Completions API、Responses API、OpenResponses API和Anthropic Messages API。不管你用什么接口或语言，数据最终都流入同一个报告端点。

另一个典型场景是内部工具。运维团队调试时的调用可以标记为'ops-team-jane'、'debugging'、'internal-tools'，和面向客户的功能成本彻底分开。

被忽视的工程债务

被忽视的工程债务

80K的节省数字背后，是一个更隐蔽的行业问题：大多数团队在AI基础设施上重复造轮子。

成本追踪本该是网关层的基础能力，但供应商分散的控制台设计，迫使每个有一定规模的平台都自建代理层。这些代理层的代码不会出现在产品路线图里，却持续消耗着工程资源——维护、对接新模型、处理边缘 case。

Cloudflare的解法是把网关从"流量管道"重新定义为"数据中枢"。当推理请求和成本数据在同一个系统里流动，归因就不再是事后拼凑，而是架构层面的原生能力。

对于已经用AI Gateway处理推理的团队，这个API意味着可以拆掉那套为了对账而存在的平行系统。对于还没上规模的新产品，它提供了一条跳过"代理层债务"的捷径。

Claude Code支持直接查询这个端点，算是给开发者体验加了分。不过真正的考验在于，当账单金额大到需要CFO过问时，这套标签体系能不能经得起财务审计的细究——你的customer.id和内部的CRM记录能对上吗？plan标签的变更历史可追溯吗？

那个200K用户的平台已经做出了选择。他们的代理层下线时，省下的不只是80K美元，还有每周几小时的对账人力，以及每次模型供应商更新接口时的兼容焦虑。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴