GPU集群空转，账单翻倍：AI成本黑洞谁来填

我是一个粉刷匠2

2026-05-13 08:36 ·北京

GPU集群空转，推理账单却翻倍。没人能解释，哪个架构决策导致了这一切。

这张账单——没有可追溯的使用记录——正是传统AI FinOps失控的时刻。不是FinOps团队没在看，而是成本在工作负载运行前就已产生。那个制造支出的架构决策，是几周前由一支从未将其视为财务决策的团队做出的。等发票到账，原因已成历史。

传统FinOps假设成本跟随使用率。AI基础设施彻底打破了这一假设，而整个行业仍在追赶这一变化对治理的真正含义。

传统FinOps在优化什么

FinOps建立在连贯的经济模型上。它有效，因为底层基础设施以特定方式运作：需要时运行，不需要时停止，账单反映这种关系。

传统FinOps的因果链条：

• 运营产生成本——资源运行，成本累积，团队观察并调整。成本是运行时决策的滞后信号。
• FinOps观察成本——仪表盘、标签、归因、展示回传、费用回传。观察层足够接近原因，因而有用。
• 工程事后优化——合理调整规模、匹配预留实例、清理闲置资源、自动扩缩容。每个杠杆都假设降低使用率就能降低成本。

整个FinOps实践建立在这一因果链上。每个优化杠杆都假设成本是使用率的滞后指标，且成本信号能及时送达以便采取行动。这一模型连贯、有据可查，但对AI基础设施完全错误。

FinOps依赖的组织假设

FinOps还对组织做了某种鲜少明言的假设：产生成本的团队能看到成本，成本责任与团队所有权合理对应。

在传统基础设施中，配置服务器的团队拥有账单。决策与支出之间的关系短暂、可追溯、可归因。

这一假设在AI基础设施中已不复存在。选择GPT-4而非更小模型的工程师，没将其视为成本决策——那是质量决策。配置GPU集群的平台团队，并不拥有其上运行的推理工作负载。编写提示词的开发者看不到token账单。FinOps团队看到了账单，却无法追溯到模型选择、上下文窗口大小，或生成它的智能体扇出模式。

成本权限——做出创造支出决策的权力——已碎片化至整个工程组织。FinOps正在观察它毫无可见性、也毫无席位的决策输出。

成本权限测试

"谁能批准创造支出的架构决策——而账单产生后，谁拥有它？"

如果这两个答案不是同一个人，FinOps工具就在测量它无法影响的输出。这是AI基础设施的新现实。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴