打开网易新闻 查看精彩图片

200K用户、多模型聚合、第三方代理层——这三个词组合在一起,通常意味着每月一张五位数的账单和凌晨三点的对账噩梦。直到有人发现,Cloudflare AI Gateway的新功能能让这套成本追踪系统直接退休。

一个平台省下的80K美元,暴露了整个行业的集体盲区。

AI功能上线后,团队拿到的使用数据从来都是碎片化的。OpenAI控制台只显示OpenAI的调用,Anthropic只看得到自家的token消耗,Azure OpenAI又是另一套界面。BYOK(Bring Your Own Key,用户自带API密钥)模式让情况更糟——支出和使用量散落在用户自己提供的密钥里,你连谁花了多少钱都搞不清。

产品经理的日常工作变成:导出CSV,在Excel里重建视图,再手动关联上内部的标签体系和用户ID。等账单真正来的时候,已经来不及做任何成本优化了。

从"事后对账"到"实时归因"

从"事后对账"到"实时归因"

Cloudflare这次发布的Custom Reporting API(自定义报告接口),本质上是把AI Gateway变成了一个统一的数据枢纽。Pro和Enterprise计划的用户现在可以用程序化的方式,抓取所有经过Gateway的流量数据——包括那些BYOK请求。

拆解维度包括:模型类型、供应商、用户ID、自定义标签、凭证类型。这意味着你可以从同一个端点,追踪每个功能、每个终端客户、每个定价档位的成本和用量。

那个省了80K的平台案例很有意思。他们原本维护着一套独立的代理层,专门用来聚合200K+用户的多模型成本追踪。Private Beta期间,他们把成本追踪和请求管理全部迁进了AI Gateway,第三方代理直接下线。

迁移后的关键变化:用custom tags(自定义标签)和user IDs(用户标识)跨模型追踪客户用量,支出数据和推理运行位置合二为一。

代码层面的归因设计

代码层面的归因设计

新API的真正价值不在"能看到什么",而在"能关联什么"。Cloudflare的解决方案是让开发者在请求层面埋入业务语义,让财务团队和产品团队用同一套语言理解成本。

具体做法是,在调用AI SDK或各类API时,通过providerOptions.gateway字段注入元数据:

用户ID对应你的客户体系,标签数组对应你的产品功能矩阵。

比如一个代码审查功能的生产环境调用,可以打上customer.id、customer.plan、'code-review'、'production'四个标签。后续查询时,任意组合这些维度都能拉出对应的成本明细。

这套标记机制兼容AI SDK、Chat Completions API、Responses API、OpenResponses API和Anthropic Messages API。不管你用什么接口或语言,数据最终都流入同一个报告端点。

另一个典型场景是内部工具。运维团队调试时的调用可以标记为'ops-team-jane'、'debugging'、'internal-tools',和面向客户的功能成本彻底分开。

被忽视的工程债务

被忽视的工程债务

80K的节省数字背后,是一个更隐蔽的行业问题:大多数团队在AI基础设施上重复造轮子。

成本追踪本该是网关层的基础能力,但供应商分散的控制台设计,迫使每个有一定规模的平台都自建代理层。这些代理层的代码不会出现在产品路线图里,却持续消耗着工程资源——维护、对接新模型、处理边缘 case。

Cloudflare的解法是把网关从"流量管道"重新定义为"数据中枢"。当推理请求和成本数据在同一个系统里流动,归因就不再是事后拼凑,而是架构层面的原生能力。

对于已经用AI Gateway处理推理的团队,这个API意味着可以拆掉那套为了对账而存在的平行系统。对于还没上规模的新产品,它提供了一条跳过"代理层债务"的捷径。

Claude Code支持直接查询这个端点,算是给开发者体验加了分。不过真正的考验在于,当账单金额大到需要CFO过问时,这套标签体系能不能经得起财务审计的细究——你的customer.id和内部的CRM记录能对上吗?plan标签的变更历史可追溯吗?

那个200K用户的平台已经做出了选择。他们的代理层下线时,省下的不只是80K美元,还有每周几小时的对账人力,以及每次模型供应商更新接口时的兼容焦虑。