十五年前,云计算的卖点简单粗暴:别买服务器了,租我的。这个交易对大多数工作负载都成立,直到AI出现。
DataBank最新调查扔出一组数字:76%的企业计划扩展AI基础设施的地理分布,53%正把托管机房(colocation)纳入部署策略。这不是微调,是结构性转向——企业开始把算力搬回数据身边,而非相反。
云GPU的账单,CFO开始过问了
在超大规模云区域跑大语言模型推理,成本是真实的。不是"可以埋进运营支出"的那种,是"季度 review 上CFO会追问"的那种。
AWS、Azure、GCP的GPU实例价格居高不下,原因很简单:供不应求,云厂商心知肚明。当需求曲线持续碾压供给曲线,定价权就不在买方手里。
数据重力让这笔账更难看。大多数企业的数据产生于几十个地点——零售门店、工厂、区域办公室、边缘设备。把所有数据运到us-east-1处理,再把结果运回来,延迟和出口费用随AI规模化 adoption 指数级膨胀。
托管机房把这个等式颠倒过来:把GPU密集型算力放在数据源头附近,需要时连接云服务(对象存储、托管数据库、身份认证),把昂贵的部分——推理和微调——留在可控或租赁成本可预测的硬件上。
训练、推理、微调:三种负载,三种归宿
行业正在滑向Seeking Alpha描述的"云智能"策略——根据工作负载特征选择公有云、私有云或边缘计算,而非一刀切。
拆解AI负载的真实需求后,这个策略的逻辑变得清晰:
训练仍属于云端。你需要海量、爆发式的GPU算力,持续数周或数月,然后归零。除非持续训练,否则直接购买硬件是糟糕的投资。超大规模云的预留实例或按需容量在这里够用。
推理是完全相反的画像。稳态运行、延迟敏感、7×24在线。规模化后,每token成本累积惊人。在托管或本地硬件上跑推理——尤其是用专用加速器——可比云GPU实例节省40-60%,取决于利用率。
微调居中。需要GPU算力数天而非数月,涉及的数据往往敏感到不想离开自有网络。连接良好的托管环境能很好承接这类需求。
数据主权正在重绘AI基建地图
数据主权和驻留要求正在加速AI基础设施的地理分布,这是纯云策略难以消化的。
欧盟AI法案对高风险AI系统施加了严格的透明度和数据治理要求。中国、印度、巴西的类似法规正在路上。把训练数据或推理日志留在特定司法管辖区之外,合规风险从"理论可能"变成"实际罚款"。
这对基础设施布局的影响是直接的。企业不再问"哪个云区域",而是问"哪个城市、哪个机房、哪条光纤路径能满足监管"。托管机房提供商——Equinix、Digital Realty、DataBank自身——正在把GPU就绪的机柜变成合规拼图的关键块。
地理分布还有一层防御性考量。单一云区域的 outage 曾让多家AI驱动的服务同时下线。把推理负载分散到多个托管节点,是把"单点故障"翻译成"可接受的降级"的保险单。
「我们看到的不是云撤退,而是云重新定位。」DataBank首席技术官Danny Allen在报告中表示,「企业正在变得精算化——他们精确计算每类负载的放置位置,而非默认云端。」
这种精算化的代价是复杂性。管理跨云、托管、边缘的异构基础设施,需要新的工具链和人才储备。但76%的企业愿意支付这笔 overhead,说明云GPU账单的刺痛已经超过了管理负担的恐惧。
一个尚未被充分讨论的细节:网络架构的重新设计。当推理节点分散在十几个城市,与中心云服务的连接方式从"星型"变成"网状"。SD-WAN和专用互连(如Equinix Fabric、Megaport)的需求正在激增,这是托管机房生态的衍生红利。
硬件采购模式也在变。以前企业向戴尔、HPE下单服务器,现在越来越多地与CoreWeave、Lambda Labs等GPU云服务商谈判托管容量。这些新玩家没有超大规模云的历史包袱,能以更灵活的合同条款提供A100/H100集群。
「推理经济学的拐点已经到来。」AI基础设施投资人、前谷歌工程师Delian Asparouhov在社交媒体上评论,「当利用率超过60%,自有硬件或托管的TCO(总拥有成本)碾压云实例。大多数企业的AI负载正在跨越这个阈值。」
这个判断与DataBank的调查数据相互印证:53%的企业增加托管策略,暗示大量推理负载正在从云端迁出。迁移的驱动力不是技术怀旧,是CFO的Excel表格。
超大规模云厂商并非毫无察觉。AWS的Outposts、Azure的Stack HCI、GCP的Distributed Cloud都在尝试模糊云与边缘的边界。但这些产品的定价结构仍倾向于"先上云,再优化",与企业想要的"先优化,再上云"存在张力。
更微妙的博弈在软件层展开。云厂商的托管机器学习服务(SageMaker、Vertex AI、Azure ML)深度绑定其基础设施。当企业把推理迁出云端,这些工具链的价值主张被削弱。开源替代方案——vLLM、TensorRT-LLM、TGI——的采用率正在攀升。
地理分布还改变了人才竞争格局。以前AI工程师聚集在旧金山、西雅图,因为云区域在那里。现在企业需要在达拉斯、芝加哥、法兰克福的机房附近雇佣运维人员,这些地点的薪资基准与湾区存在显著差异。
DataBank的调查样本覆盖北美500家年收入超10亿美元的企业,其地理扩张计划的中位数是新增3-4个部署地点。这意味着典型的企业AI基础设施将从"集中式"变成"联邦式"——中心云保留训练和协调功能,边缘节点处理本地化推理。
这种架构的延迟优势在实时应用场景中尤为明显。自动驾驶仿真、工业质检、金融风控的推理请求,往返云端200ms的延迟不可接受。托管机房的<10ms响应成为硬需求。
能源约束是另一个被低估的变量。云区域的电力供应并非无限,AI负载的激增已导致部分地区出现容量紧张。托管机房提供商正在与公用事业公司谈判专用电力供应,这种"能源套利"能力成为选址的新维度。
「我们评估机房的首要标准从'网络密度'变成了'电力可得性'。」一家头部自动驾驶公司的基础设施负责人透露,「训练一个大型模型消耗的电量,相当于数百个家庭一年的用电。」
这种能源焦虑正在推动液冷技术的快速普及。传统机房的风冷设计无法应对GPU集群的热密度,改造或新建液冷就绪的托管空间成为资本支出的新类别。
回到DataBank的核心发现:76%的地理扩张意愿与53%的托管 adoption 之间存在23个百分点的差距。这部分企业可能正在探索其他边缘形态——工厂内的微型数据中心、电信公司的多接入边缘计算(MEC)节点、甚至重新激活的本地机房。
无论具体形态如何,方向是明确的:AI基础设施正在从"云优先"转向"数据优先"。算力跟随数据流动,而非数据被搬运到算力中心。
这个转向的长期影响尚难完全预测。超大规模云厂商会调整定价策略吗?托管机房提供商会向上游延伸,提供托管的机器学习平台吗?芯片厂商会针对分布式推理优化架构吗?
唯一确定的是,CFO的Excel表格已经投下了决定性的一票。
热门跟贴