AI芯片大战，升级|amd|gpu|nvidia|内存|知名企业|英伟达|英特尔

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自theregister，谢谢。

根据 Omdia 的估计，Nvidia 在 2024 年占据了人工智能领域的主导地位，其 Hopper GPU 在其 12 大客户的出货量将增长两倍多，达到 200 多万台。

然而，尽管 Nvidia 仍然是 AI 基础设施巨头，但它正面临着来自竞争对手 AMD 的激烈竞争。在早期采用其 Instinct MI300 系列 GPU 的公司中，AMD 的市场份额正在迅速扩大。

Omdia 估计，微软在 2024 年购买了约 581,000 块 GPU，是全球所有云或超大规模客户中购买量最大的。其中，六分之一由 AMD 制造。

根据 Omdia 的调查结果，在 Meta（迄今为止对刚推出一年的加速器最热衷的采用者）中，AMD 占据了 GPU 出货量的 43%，为 173,000 块，而 Nvidia 的出货量为 224,000 块。与此同时，在 Oracle，AMD 占据了这家数据库巨头 163,000 块 GPU 出货量的 23%。

尽管在微软和 Meta 等主要客户中的份额不断增长，但 AMD 在更广泛的 GPU 市场中的份额与 Nvidia 相比仍然相对较小。

Omdia 的估计追踪了四家供应商（微软、Meta、甲骨文和 GPU bit barn TensorWave）的 MI300X 出货量，总计 327,000 台。

AMD 的 MI300 系列加速器上市才一年，因此其发展速度同样引人注目。在此之前，AMD 的 GPU 主要用于更传统的高性能计算应用，例如橡树岭国家实验室 (ORNL) 的 1.35 exaFLOPS Frontier 超级计算机。

Omdia 云计算和数据中心研究总监 Vladimir Galabov 向The Register表示：“他们去年成功地通过 HPC 领域证明了 GPU 的有效性，我认为这很有帮助。我确实认为人们渴望找到 Nvidia 的替代品。”

为什么选择 AMD？

这种需求在多大程度上是由 Nvidia 硬件供应有限所导致的很难说，但至少从纸面上看，AMD 的 MI300X 加速器提供了许多优势。MI300X 于一年前推出，声称其AI 工作负载浮点性能比老牌 H100 高 1.3 倍，内存带宽高 60%，容量高 2.4 倍。

后两点使得该部件对于推理工作负载特别有吸引力，其性能通常取决于内存的数量和速度，而不是 GPU 可以抛出多少 FLOPS。

一般来说，当今大多数 AI 模型都是以 16 位精度进行训练的，这意味着为了运行它们，每 10 亿个参数需要大约 2 GB 的 vRAM。每台 GPU 配备 192 GB 的 HBM3，单台服务器拥有 1.5 TB 的 vRAM。这意味着大型模型（如 Meta 的 Llama 3.1 405B 前沿模型）可以在单个节点上运行。另一方面，配备类似设备的 H100 节点缺乏以全分辨率运行模型所需的内存。141 GB 的 H200 不受同样的限制，但容量并不是 MI300X 的唯一亮点。

MI300X 拥有 5.3 TBps 的内存带宽，而 H100 为 3.3 TBps，141 GB H200 为 4.8 TBps。总而言之，这意味着 MI300X 理论上应该能够比 Nvidia 的 Hopper GPU 更快地为更大的模型提供服务。

尽管 Nvidia 的 Blackwell 才刚刚开始面向客户推出，但在性能和内存带宽方面遥遥领先，AMD 的新款 MI325X 仍然以每 GPU 256 GB 的容量优势占据优势。其功能更强大的 MI355X 将于明年年底发布，将容量提升至 288 GB。

因此，微软和 Meta 都选择 AMD 的加速器也就不足为奇了，这两家公司都在部署数千亿甚至数万亿个参数的大型前沿模型。

Galabov 指出，这一点已反映在 AMD 的业绩指引中，该指引每个季度都在稳步上升。截至第三季度，AMD 现在预计 Instinct 将在 2024 财年带来 50 亿美元的收入。

进入新的一年，Galabov 相信 AMD 有机会获得更多的市场份额。“AMD 执行力强。它与客户沟通良好，善于透明地谈论自己的优势和劣势，”他说。

一个潜在的驱动因素是 GPU 比特库的出现，例如 CoreWeave，它们每年部署数万台加速器。Galabov 表示：“其中一些公司会刻意尝试围绕 Nvidia 替代方案建立商业模式”，他指出 TensorWave 就是其中一个例子。

定制硅片大步前进

不仅仅是 AMD 在蚕食 Nvidia 的帝国。在云计算和超大规模企业大量购买 GPU 的同时，许多企业也在部署自己的定制 AI 芯片。

Omdia 估计，Meta 定制 MTIA 加速器的出货量（我们在今年早些时候对其进行了更详细的研究）将在 2024 年达到 150 万台，而亚马逊则订购了 90 万台 Inferentia 芯片。

这是否对 Nvidia 构成挑战在很大程度上取决于工作量。这是因为这些部件旨在运行更传统的机器学习任务，例如用于将广告与用户匹配、将产品与买家匹配的推荐系统。

虽然 Inferentia 和 MTIA 在设计时可能并未考虑到 LLM，但谷歌的 TPU 肯定曾被用于训练该搜索巨头的许多语言模型，包括其专有的 Gemini 和开放的 Gemma 模型。

据Omdia所知，谷歌今年订购了约一百万个TPU v5e和48万个TPU v5p加速器。

除了 Inferentia，AWS 还拥有 Trainium 芯片，尽管名称如此，但这些芯片已针对训练和推理工作负载进行了重新调整。Omdia 估计，到 2024 年，亚马逊将订购约 366,000 个此类部件。这与其Rainier 项目计划相一致，该项目将在 2025 年为模型构建者 Anthropic 提供“数十万”个 Trainium2 加速器。

最后还有微软的 MAIA 部件，这些部件在 AMD 推出 MI300X 前不久首次亮相。与 Trainium 类似，这些部件针对推理和训练进行了调整，微软作为 OpenAI 的主要硬件合作伙伴和模型构建者，显然在这方面做得不错。Omdia 认为微软在 2024 年订购了大约 198,000 个此类部件。

人工智能市场比硬件更大

过去两年中，英伟达的巨额营收增长理所当然地让人们关注到了人工智能背后的基础设施，但这只是一个更大谜团中的一块碎片。

Omdia 预计，随着 AMD、英特尔和云服务提供商推出替代硬件和服务，Nvidia 将在未来一年努力扩大其在 AI 服务器市场的份额。

“如果我们从英特尔身上学到了什么，那就是一旦市场份额达到 90% 以上，就不可能继续增长。人们会立即寻找替代方案，”Galabov 说道。

然而，Galabov 怀疑，Nvidia 不会在竞争日益激烈的市场中争夺份额，而是会专注于通过让技术更容易获得来扩大整个潜在市场。

Nvidia 推理微服务 (NIM) 的引入只是这一转变的一个例子，NIM 是一种容器化模型，其功能类似于构建复杂 AI 系统的拼图。

“这是史蒂夫·乔布斯的策略。智能手机的成功归功于应用商店。因为它让技术更容易使用，”Galabov 谈到 NIM 时说道。“人工智能也是如此；建立一个应用商店，人们就会下载并使用它。”

话虽如此，Nvidia 仍然扎根于硬件。云提供商、超大规模计算提供商和 GPU 比特库已经宣布基于 Nvidia 强大的新型 Blackwell 加速器打造大规模集群，至少在性能方面，该加速器远远领先于 AMD 或英特尔目前提供的任何产品。

与此同时，Nvidia 加快了其产品路线图，以支持每年推出新芯片的节奏，从而保持领先地位。看来，尽管 Nvidia 将继续面临来自竞争对手的激烈竞争，但它短期内不会失去王冠。

https://www.theregister.com/2024/12/23/nvidia_ai_hardware_competition/

半导体精品公众号推荐

专注半导体领域更多原创内容