Mark Lohmeyer 在 Cloud Next 大会上放出这个数字时,台下的人应该算了一下:96 万颗英伟达 Rubin GPU,相当于把一座小型城市的用电量塞进数据中心。这不是概念验证,是谷歌云已经落地的 A5X 裸金属实例。
裸金属到底是什么,为什么现在成了香饽饽
简单说,裸金属就是云上的物理服务器,没有虚拟化层。你的代码直接跑在硬件上,没有"房东"抽成。
谷歌这次给 A5X 配了英伟达 ConnectX-9 SuperNIC,加上自研的 Virgo Network 架构。单站点 8 万颗 GPU,跨站点能摞到 96 万颗。这个规模已经不是"租算力"了,是"租一座发电厂"。
Lohmeyer 的原话是:「未来十年的 AI 将取决于客户在真正集成、AI 优化的基础设施堆栈上运行其要求高度严苛的工作负载能力。」翻译一下:模型越大,对底层架构的耦合度要求越高,虚拟化那套中间商逻辑正在被淘汰。
正方:裸金属是超大规模训练的必然选择
支持方的逻辑很直接。当 GPT-4 级别的模型需要数万张卡同步训练时,任何虚拟化开销都是灾难。网络延迟、调度损耗、资源争抢——这些问题在千卡规模可能只是"优化空间",在十万卡规模就是"训练失败"。
谷歌把 Rubin 机架级系统和 Virgo Network 打包成托管服务,客户不用自己搭机房、谈电力、管散热。Lohmeyer 强调的"灵活性"和"可持续性",其实是说:大厂把重资产扛了,你只管交租。
这对有模型野心的公司来说是刚需。不是每个团队都能像 OpenAI 一样自建数据中心,但 A5X 给了他们"借用"同等规模的可能性。
反方:这是云厂商的锁客陷阱,成本账未必划算
质疑者的角度更冷。裸金属的"无虚拟化"是双刃剑——你获得了性能,也失去了弹性。云的核心卖点是"用多少付多少",裸金属更接近传统 IDC 的长租模式,预付款和最低消费条款可能让"优化成本"变成空话。
更关键的是 96 万颗 GPU 这个数字本身。多站点集群意味着跨地域延迟,物理 AI 和实时推理场景能否真正受益?谷歌没有给出具体带宽和延迟指标,只说了"可扩展"。
另一个隐忧是绑定。Rubin + Virgo + ConnectX-9,三层都是特定技术栈。今天选 A5X,明天想迁到 AWS 或 Azure,迁移成本可能远超虚拟化环境。
判断:裸金属不是终点,是云战争的新前线
我的看法是,A5X 的真正意义不在于技术先进性,而在于谷歌对 AI 基础设施商业模式的重新定义。
过去十年,云厂商靠虚拟化抽象赚差价;未来十年,他们要靠"裸金属即服务"锁定超大规模客户。96 万颗 GPU 是一个心理锚点——告诉市场"我能承载你的最大野心",同时也暗示"你的野心只能在我这里实现"。
这场博弈的胜负手,可能不在于谷歌或英伟达,而在于客户是否愿意为"规模幻觉"支付溢价——以及,当模型训练成本真的压垮利润时,他们还有没有退路。
如果 96 万颗 GPU 的集群训练出的模型,最终无法找到对应的商业化场景,这笔账该由谁来买单?
热门跟贴