GPU集群空转,推理账单却翻倍。没人能解释,哪个架构决策导致了这一切。
这张账单——没有可追溯的使用记录——正是传统AI FinOps失控的时刻。不是FinOps团队没在看,而是成本在工作负载运行前就已产生。那个制造支出的架构决策,是几周前由一支从未将其视为财务决策的团队做出的。等发票到账,原因已成历史。
传统FinOps假设成本跟随使用率。AI基础设施彻底打破了这一假设,而整个行业仍在追赶这一变化对治理的真正含义。
传统FinOps在优化什么
FinOps建立在连贯的经济模型上。它有效,因为底层基础设施以特定方式运作:需要时运行,不需要时停止,账单反映这种关系。
传统FinOps的因果链条:
• 运营产生成本——资源运行,成本累积,团队观察并调整。成本是运行时决策的滞后信号。
• FinOps观察成本——仪表盘、标签、归因、展示回传、费用回传。观察层足够接近原因,因而有用。
• 工程事后优化——合理调整规模、匹配预留实例、清理闲置资源、自动扩缩容。每个杠杆都假设降低使用率就能降低成本。
整个FinOps实践建立在这一因果链上。每个优化杠杆都假设成本是使用率的滞后指标,且成本信号能及时送达以便采取行动。这一模型连贯、有据可查,但对AI基础设施完全错误。
FinOps依赖的组织假设
FinOps还对组织做了某种鲜少明言的假设:产生成本的团队能看到成本,成本责任与团队所有权合理对应。
在传统基础设施中,配置服务器的团队拥有账单。决策与支出之间的关系短暂、可追溯、可归因。
这一假设在AI基础设施中已不复存在。选择GPT-4而非更小模型的工程师,没将其视为成本决策——那是质量决策。配置GPU集群的平台团队,并不拥有其上运行的推理工作负载。编写提示词的开发者看不到token账单。FinOps团队看到了账单,却无法追溯到模型选择、上下文窗口大小,或生成它的智能体扇出模式。
成本权限——做出创造支出决策的权力——已碎片化至整个工程组织。FinOps正在观察它毫无可见性、也毫无席位的决策输出。
成本权限测试
"谁能批准创造支出的架构决策——而账单产生后,谁拥有它?"
如果这两个答案不是同一个人,FinOps工具就在测量它无法影响的输出。这是AI基础设施的新现实。
热门跟贴