谷歌押注96万颗GPU集群，裸金属是AI算力的终极答案吗？

野生运营

2026-04-28 18:06 ·北京

Mark Lohmeyer 在 Cloud Next 大会上放出这个数字时，台下的人应该算了一下：96 万颗英伟达 Rubin GPU，相当于把一座小型城市的用电量塞进数据中心。这不是概念验证，是谷歌云已经落地的 A5X 裸金属实例。

裸金属到底是什么，为什么现在成了香饽饽

简单说，裸金属就是云上的物理服务器，没有虚拟化层。你的代码直接跑在硬件上，没有"房东"抽成。

谷歌这次给 A5X 配了英伟达 ConnectX-9 SuperNIC，加上自研的 Virgo Network 架构。单站点 8 万颗 GPU，跨站点能摞到 96 万颗。这个规模已经不是"租算力"了，是"租一座发电厂"。

Lohmeyer 的原话是：「未来十年的 AI 将取决于客户在真正集成、AI 优化的基础设施堆栈上运行其要求高度严苛的工作负载能力。」翻译一下：模型越大，对底层架构的耦合度要求越高，虚拟化那套中间商逻辑正在被淘汰。

正方：裸金属是超大规模训练的必然选择

支持方的逻辑很直接。当 GPT-4 级别的模型需要数万张卡同步训练时，任何虚拟化开销都是灾难。网络延迟、调度损耗、资源争抢——这些问题在千卡规模可能只是"优化空间"，在十万卡规模就是"训练失败"。

谷歌把 Rubin 机架级系统和 Virgo Network 打包成托管服务，客户不用自己搭机房、谈电力、管散热。Lohmeyer 强调的"灵活性"和"可持续性"，其实是说：大厂把重资产扛了，你只管交租。

这对有模型野心的公司来说是刚需。不是每个团队都能像 OpenAI 一样自建数据中心，但 A5X 给了他们"借用"同等规模的可能性。

反方：这是云厂商的锁客陷阱，成本账未必划算

质疑者的角度更冷。裸金属的"无虚拟化"是双刃剑——你获得了性能，也失去了弹性。云的核心卖点是"用多少付多少"，裸金属更接近传统 IDC 的长租模式，预付款和最低消费条款可能让"优化成本"变成空话。

更关键的是 96 万颗 GPU 这个数字本身。多站点集群意味着跨地域延迟，物理 AI 和实时推理场景能否真正受益？谷歌没有给出具体带宽和延迟指标，只说了"可扩展"。

另一个隐忧是绑定。Rubin + Virgo + ConnectX-9，三层都是特定技术栈。今天选 A5X，明天想迁到 AWS 或 Azure，迁移成本可能远超虚拟化环境。

判断：裸金属不是终点，是云战争的新前线

我的看法是，A5X 的真正意义不在于技术先进性，而在于谷歌对 AI 基础设施商业模式的重新定义。

过去十年，云厂商靠虚拟化抽象赚差价；未来十年，他们要靠"裸金属即服务"锁定超大规模客户。96 万颗 GPU 是一个心理锚点——告诉市场"我能承载你的最大野心"，同时也暗示"你的野心只能在我这里实现"。

这场博弈的胜负手，可能不在于谷歌或英伟达，而在于客户是否愿意为"规模幻觉"支付溢价——以及，当模型训练成本真的压垮利润时，他们还有没有退路。

如果 96 万颗 GPU 的集群训练出的模型，最终无法找到对应的商业化场景，这笔账该由谁来买单？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴