200K用户的AI平台每年多烧80万,不是因为算力贵,是因为根本看不清钱花在哪儿。OpenAI、Anthropic、Gemini各给一个后台,BYOK(用户自带密钥)再搅进来,财务月底对账像考古——挖出一堆CSV,拼不出一张完整的成本地图。
Cloudflare AI Gateway的新功能,相当于给这团乱麻装了个统一电表。Custom Reporting API今天开放beta,Pro和Enterprise用户能用一套接口,把分散在各家的token消耗、请求量、成本数据,按模型、供应商、用户ID、自定义标签全维度拆解。
那个省掉80K的平台不是测试案例,是已经跑完的账单。他们用AI Gateway替掉了自己搭的第三方代理层,把成本追踪和请求管理塞进同一个系统。原本需要跨三个供应商后台+自建代理才能凑齐的数据,现在从一个端点实时拉取。
账单黑箱是怎么养成的
做AI产品的团队都经历过这个漂移:月初定预算,月底对账单,中间两眼一抹黑。供应商后台只认自己的密钥,你的用户分层、功能边界、内部ID全被洗掉。BYOK模式下,用户揣着自己的OpenAI密钥进来,你的成本追踪直接断链——钱从谁兜里出的,消耗算在谁头上,成了笔糊涂账。
常见的补救姿势是搭一层代理,把所有请求过一遍,自己记日志。这方案能跑,但维护成本不低:得保证代理不成为瓶颈,得处理各供应商API的微妙差异,得自己算token数——而供应商的计费规则和实际token消耗经常对不上。
Cloudflare的解法是把网关层变成数据枢纽。AI Gateway本来就要过手所有请求,现在顺手把元数据结构化存下来,开放查询接口。你不用另起炉灶搭代理,也不用在每个供应商后台之间来回跳转。
关键设计是标签系统。发请求时带上user字段和tags数组,后续查询就能按这些维度切片。比如给每个请求打上customer.id、customer.plan、功能名称,财务可以直接拉出「Pro套餐用户在代码审查功能上的Claude消耗」,不用写正则表达式从日志里抠。
代码层面,AI SDK、Chat Completions API、Responses API、OpenResponses API、Anthropic Messages API都支持同样的providerOptions.gateway字段。不管你用Node.js还是Python,数据最终落进同一个reporting endpoint。
从「事后对账」到「实时归因」
那个200K用户平台的迁移路径很典型。他们之前用第三方代理做两件事:统一路由请求、记录成本数据。AI Gateway的Custom Reporting上线后,他们发现第一件事早就由网关代劳了,第二件事现在也有了原生支持。
代理层被整个卸掉,省下的不只是80K年费,还有维护一套中间件的工程成本。更隐蔽的收益是数据实时性——以前月底才能看清的消耗分布,现在可以按小时粒度查询,甚至直接接进Claude Code做交互式分析。
标签系统的灵活性在这里显出来。平台给用户分了三档套餐,每档对应不同的模型权限和token限额。以前要在代理层自己维护映射表,现在直接在请求标签里写plan名称,查询时GROUP BY就行。BYOK用户也一样处理:credential type作为查询维度,自带密钥和平台代付的消费能分开统计。
这对做多租户SaaS的团队尤其解渴。你需要向客户展示他们的AI消耗明细,但供应商后台给不了你按customer ID聚合的数据。现在每个请求自带客户标识,查询接口吐出来的就是可以直接塞进客户账单的数据结构。
技术实现上,API支持时间范围、分页、多维度筛选。响应格式是标准JSON,成本、token用量、请求数按你选的维度分组。没有专有查询语言,没有批量导出限制,没有「请联系销售解锁更多功能」的阶梯。
API设计的取舍
Cloudflare在这个功能上做了几个有意的限制,也留了明确的扩展空间。beta阶段只开放给Pro和Enterprise,免费和Pro以下的用户用不了——这不是技术门槛,是产品策略:成本归因是规模化团队的痛点,小体量用户用供应商后台就够了。
数据保留期目前没公开说明,但按Cloudflare一贯的作风,大概率有滚动窗口而非永久存储。如果你需要长期历史数据,得自己定时拉取归档。查询延迟也没承诺SLA,beta阶段的「实时」是工程描述,不是合同条款。
标签值的格式相对自由,但长度和字符集应该有限制——文档没细说,实际接入时需要测试边界。user字段和tags数组的组合键,理论上可以支撑非常细的归因粒度,但查询复杂度会随维度数量指数上升,需要自己在「看得细」和「查得快」之间找平衡。
和直接调用供应商API相比,网关层多了一个网络跳点,延迟增加通常在几十毫秒级别。对于成本追踪这类非关键路径,这个trade-off多数团队能接受。但如果你的场景对延迟极度敏感,得实测验证。
行业信号的解读
这个动作放在更大的棋盘上看,是Cloudflare在AI基础设施层的卡位。CDN和边缘计算之后,AI Gateway成为新的流量入口——不是替代供应商,而是坐在供应商和客户之间,提供跨供应商的通用能力。
成本可视化是通用能力里最容易被低估的一项。大家先拼模型接入数量、再拼缓存命中率,最后才发现账单对不齐是规模化路上的暗礁。Cloudflare用一套API解决这个问题,相当于给客户的财务部门递了张名片:你的工程团队选我,你的CFO也会感谢我。
竞争对手的应对值得关注。AWS Bedrock有成本分配标签,但绑定在CloudWatch里,查询体验偏运维视角;Azure OpenAI的计量数据走Monitor,灵活性一般;Vercel的AI SDK最近也在加强observability,但主要面向前端场景。Cloudflare的差异化在于「网关即数据源」的架构——它不依赖供应商暴露的账单API,而是自己抓流量算token,理论上更准确,也更不容易被供应商的计费规则变动打乱。
那个省掉80K的平台,他们的CFO现在能问出以前问不了的问题:「我们Top 10客户里,谁在消耗最贵的模型?代码审查功能的真实成本比定价高多少?」这些问题不需要等月底,不需要写Python脚本扒CSV,Claude Code里敲几行查询就能拿到。
当基础设施让成本归因变得像查数据库一样简单,AI产品的定价策略会不会变得更激进?按token收费的模式,会不会被更精细的「功能-成本」映射取代?你的客户如果也能实时看到他们的消耗明细,你的毛利空间还藏得住吗?
热门跟贴