公众号记得加星标⭐️,第一时间看推送不会错过。

打开网易新闻 查看精彩图片

当Meta Platforms与英伟达(Nvidia)达成大规模 AI 系统交易时,通常意味着该公司此前的某些开放硬件计划已无法满足紧迫的算力需求。这与项目延期不完全是一回事,但效果是一样的。提醒一下,这类情况我们掌握的数据并不多,而如今这家社交网络巨头、AI 模型厂商与 AI 硬件巨头英伟达之间宣布的巨额合作,已是第三起。

这笔交易远比 Meta 上一次与英伟达的合作规模更大,对英伟达而言价值至少数百亿美元,再加上原始设计制造商将英伟达芯片集成到 Meta 系统中所能获得的额外收益。

在前两起案例中(几乎可以确定第三起新案例也是如此),一旦 AI 算力需求足够紧迫,Meta 便愿意放弃自家开放计算项目(OCP)的设计方案。

在超大规模云厂商与大模型厂商中,Meta 的定位略有不同:它不只是为搜索加入 AI 能力,或是打造能与 OpenAI、Anthropic 等抗衡的通用大模型,同时还高举开源大旗(至少目前是这样)。该公司还运营着庞大的高性能集群集群,作为旗下各类服务的推荐引擎。这些系统需要CPU 与加速器紧密耦合,让加速器能直接访问 CPU 内存中存储的高维嵌入向量,从而为每位用户提供个性化推荐。英伟达将 CG100 CPU 与 H100 GPU 加速器结合的 “Grace‑Hopper” 超级芯片,正是瞄准这类推荐引擎场景设计的。

据我们所知,Meta 拥有大量此类设备。

可以确定的是,尽管 Meta 一直希望自研 AI 芯片 —— 从其 MTIA AI 推理芯片项目,以及收购 RISC‑V CPU 与 GPU 厂商 Rivos 都能看出 —— 但 Meta 仍在英伟达身上投入了巨额资金:有时采购整系统,有时采购 GPU、NVSwitch 互联芯片,有时还扩展 InfiniBand 网络。

当初英特尔迟迟无法按时推出 “Ponte Vecchio” Max 系列 GPU,而 AMD 的 “Aldebaran” MI250X GPU 加速器又无法足量供货以满足 Meta 需求,Meta 别无选择,只能与英伟达合作搭建其研究超级计算机(RSC),采用英伟达 “Ampere” A100 GPU,而非当时即将推出的 “Hopper” H100 加速器。对 Meta 来说最致命的是:这两款 GPU 都支持由微软与 Meta 联合定义的开放加速器模块(OAM)接口,但由于供应量不足,Meta 最终只能放弃自研的 “Grand Teton” CPU‑GPU 系统。英特尔的 Gaudi 计算引擎同样支持 OAM 模块,但英伟达拥有自家 SXM 接口设计,以及配套 NVSwitch 架构的系统板卡。

于是,英伟达拿下了这套2000 节点 RSC 超算的订单。该系统搭载 4000 颗 AMD CPU 与 16000 颗英伟达 A100 GPU 加速器,合同于 2022 年 1 月签订,并在当年分阶段完成部署。

2022 年 3 月,Meta 终于披露其计划投资 A100 与 H100 加速器,打造总算力超过 50 万片 H100 等效算力的集群舰队,其中包括两套基于 Grand Teton 服务器平台、各搭载 24576 颗 GPU 的集群:一套采用 Arista 的以太网,另一套采用英伟达的 InfiniBand,明确要让两种交换架构正面竞争。同年 5 月,为紧急补齐 AI 算力缺口,Meta 又与微软达成协议,在 Azure 云上采购基于 NDm A100 v4 实例的虚拟超算资源,其节点配置与 Meta 采购的 RSC 系统非常接近。

显然,Meta 最初并不想从英伟达大量采购 GPU。但风向转变得非常快。

更近一段时间,Meta 看似在试图降低对英伟达的依赖:推出自研MTIA v2 推理加速器,并与 AMD 合作设计“Helios”Open Rack Wide 3 双宽机架方案。其密度只有英伟达 GB200 NVL72、GB300 NVL72 机架系统所用 “Oberon” 机架的一半,但考虑到 Oberon 机架的重量与功耗密度极高,且未来 “Kyber” 机架还会进一步提升,这反而可能成为一项优势。

英伟达机架的高密度,很大程度上是为了满足 NVSwitch 架构的低时延需求,实现机架内 72 颗 GPU 的显存互联。Helios 机架则通过以太网实现 UALink 隧道,GPU 集群时延明显更高 —— 部分原因也是 Helios 机架内的铜缆更长。但无论如何,第一代 Helios 机架时延更高、带宽更低是必然的,就像早年 AMD 与 Meta AI 节点设计中的 PCIe 交换,相比同期 NVSwitch 同样时延更高、带宽更低。

根据本周达成的协议,Meta 将采购英伟达的 CPU 与 GPU,并将自家 FBOSS 网络操作系统移植到英伟达 Spectrum‑X 交换 ASIC 及系统上。双方未披露具体数量,但据称 Meta 将采购数百万片英伟达 Blackwell 与 Rubin GPU。细看细节可知:部分 GPU 将部署在 Meta 自有数据中心,另一部分(未披露比例)则将从英伟达(未具名的)云合作伙伴处租赁算力。这可能包括 AWS、微软、谷歌、甲骨文等公有云,也可能是 CoreWeave、Crusoe、Lambda、Nebius 等新型 AI 云厂商。

初期部署将以GB300 系统为主 —— 不要直接等同于 GB300 NVL72 整机柜系统 —— 这意味着优先面向推理任务,可能附带少量训练。如果 Meta 正在研发大规模混合专家模型,那么其采购的英伟达设备可能会是 GB300 NVL72 整机柜系统。但我们相信,Meta 同时也希望继续扩容 Grand Teton 服务器,或推出改进版 Grand Teton,以支持 HPC 领域流行的 NVL4 节点,或是过去更常见的 NVL8 节点,而 Grand Teton 本身就是很好的范例。

你会注意到,这份公告中完全没有提到 InfiniBand。话已至此,Meta 显然已经做出了长期选择。

这笔交易还包含英伟达所称的 “首个大规模纯 Grace 部署”,我们推测指的是 Grace‑Grace 超级芯片。这款 144 核双芯处理器运行频率 3.2 GHz,通过 NVLink 端口构成 NUMA 架构,在芯片内置的 SVE 向量单元上可提供 7.6 GFLOPS 算力。

目前已有不少仅运行 CPU 代码的 HPC 集群大量采用 Grace CPU,例如布里斯托大学最新的 “Isambard” 超算与德州大学的 “Vista” 超算。德州高级计算中心(TACC)正在建设的 “Horizon” 超算中,也有一大分区采用 88 核 Vera CPU。我们预计 TACC 将通过 4752 颗 Vera‑Vera 超级芯片提供 836352 核、FP64 精度下 131.8 PFLOPS 的算力,这是我们已知规模最大的基于英伟达 Arm 服务器芯片的纯 CPU 集群。英伟达与 Meta 表示,双方正在合作研究 Meta 如何部署纯 Vera 算力,并有望在 2027 年进行大规模落地。

有一件事会很有意思(但大概率不会发生):Meta 与英伟达合作,把英伟达 CPU、GPU、DPU 和交换 ASIC 放进Helios 机架里。这在技术上并非不可行,但可能需要推出 OAM 版本的 Rubin GPU,以及略有调整的 Vera GPU 设计,以支持更多 GPU 与一颗 CPU 互联。不少人都质疑过,为什么 Grace‑Hopper 是 1:1 搭配、Grace‑Blackwell 是 1:2 搭配,而对很多工作负载来说,2:8 的配比或许才是最优 —— 就像 Meta 在 Grand Teton 设计中采用的方案,以及英伟达多代 DGX/HGX 服务器板卡的经典架构。

本次合作涉及的金额并未公布,这很可能是因为它既包含向英伟达采购硬件,也包含从公有云 / 新型 AI 云租赁算力,具体比例很大程度上取决于 Meta 的预算结构,以及其在自有数据中心之外能分配多少运营预算。

假设这是一个逐年放量的合同 ——GPU 数量逐年增长 —— 总规模达到 200 万到 300 万颗。如果全部采用 GB300 算力集群,单套 GB300 NVL72 机柜成本超过 400 万美元,那么采购 200 万到 300 万颗 GPU 的总价值大约在1100 亿到 1670 亿美元之间。Meta 希望尽可能少租算力,因为租赁模式无法利用其重金建设的自有数据中心,而且四年周期内,租赁 GPU 成本是直接购买的 4~6 倍。

在不清楚 Meta 采购与租赁比例的情况下,我们无法给出精确估算。但可以提醒的是:租赁算力属于运营支出,不计入资本支出预算,而 Meta 2026 年的资本支出预算预计为 1250 亿美元。

由此你就能明白,为什么所有超大规模云厂商与云服务商都希望拥有自研 CPU 与 XPU—— 包括 Meta 在内。有传闻称,Meta 还在与谷歌洽谈租用 TPU 算力,并最终希望在自有系统中用上自研 TPU。这笔交易与 Anthropic 和谷歌达成的合作如出一辙。

https://www.nextplatform.com/2026/02/18/some-game-theory-on-that-nvidia-meta-platforms-partnership/

(来源:nextplatform)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4322期内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐