AMD芯片大赏，英伟达最强竞争对手来了｜焦点分析|apu|gpu|nvidia|处理器|英伟达|财务会计|财务报表

作者｜杨逍

编辑｜苏建勋

AMD带来了更强的AI芯片。

12月7日凌晨，AMD召开发布会，正式推出AI芯片——用于训练和推理的MI300X GPU，和用于HPC（高性能计算）的MI300A APU，以及用于AI PC 上的Ryzen 8040系列移动处理器，可谓带来了整个AI 大礼包。

AMD的最新数据中产品

一年前，AMD 曾预测到 2027 年 AI 工作负载的市场空间将达到 1500 亿美元。如今， AMD 将认为2027年会达到 4000 亿美元。

AMD CEO 苏姿丰表示：“英伟达现在占有大量市场，但是我们可以在这个市场分一杯羹。”

在算力芯片竞争激烈的当下，AMD被认为是最有望与英伟达竞争的公司。

这次发布会，AMD也没有让大家失望。它从各个维度对比了其MI300X芯片与英伟达H100的参数，都有1.3倍甚至2倍的数据提升。

目前，MI300X 已经向 HPE、戴尔、联想、SuperMicro 等 OEM 厂商发货，预计将于下季度上市。该产品将会被用于微软Azure和甲骨文云上。

AMD还宣布推出了Instinct MI300A APU，将主要用于HPC市场。它已被用于美国劳伦斯利弗莫尔实验室正在安装的超级计算机El Capitan，它将会成为世界上第一台 2 Exaflop 的超级计算机。

除了用于数据中心的产品，AMD还带来了用于笔记本电脑的处理器——添加AI功能的Ryzen 8040系列移动处理器。

此外，AMD还路透了Ryzen AI路线图，称下一代Ryzen AI CPU将在2024年出货，代号为“Strix Point”，能将性能提高到上一代产品的3倍以上。

MI300X ：推理速度比H100更快

MI300推出时，便被认为是H100的最大竞敌。

为了更好地在数据中心市场竞争，AMD将其GPU产品线分为用于图形的RDNA产品线和用于计算的CDNA产品线。

此次发布的MI300X GPU采用CDNA3架构，主要用于计算引擎，有192GB的HBMS，5.3TB/S的内存带宽和和达到896GB/s的 Infinity Fabric 带宽。

AMD MI300X 性能介绍

在架构设计上，MI300X GPU也有其独特之处，它有 8 个XCD（加速计算芯片）、4 个 IO 芯片（接口芯片）、8 个 HBM3 堆栈（三星高性能存储芯片），有256MB 缓存，采用 3.5D 封装。

AMD MI300X主要规格

在这种架构设计下，它有1530亿个晶体管，是一款非常大的芯片。这让其在 AI 领域比 H100（可能更接近 H200）更快，内存更大。

在AMD看来，MI300X在高性能计算场景，性能上是 NVIDIA H100 的 2.4 倍，在人工智能方面约为 1.3 倍。

AMD MI300X与英伟达H100的对比

AMD CEO 苏姿丰表示 “当你向模型提问时，你希望它能更快地返回，尤其是当答案变得更加复杂时。”

苏姿丰介绍道，MI300X与H100相比，拥有更大的高带宽内存，MI300X采用了八个 HBM3 堆栈，容量达到192GB，而H100 只有80GB。

在性能上，MI300X的训练速度和H100相当。

MI300X的训练速度和H100对比

但在推理上，AMD具有优势，在运行Bloom时，MI300X的推理速度是H100的1.6倍，运行Llama2时，推理速度是1.4倍。

MI300X的推理速度与H100对

AMD目前并未透露 MI300X 的定价，但Nvidia的产品售价约在4万美元。苏姿丰表示，AMD 芯片的购买和运行成本必须低于 Nvidia 的芯片没，才能说服客户购买。

目前，该硬件已经向HPE、戴尔、联想、SuperMicro等OEM 厂商发货，预计将于下季度上市。

Meta表示将使用MI300X GPU来处理AI推理工作负载，例如处理AI贴纸、图像编辑和操作其助手。

AMD 还有多个云合作伙伴。微软表示，MI300X 现已在 Azure 上推出预览版，甲骨文云也将与AMD合作。

MI300A ，面向HPC市场的APU

会上，AMD还带来了业内首款用于数据中心领域的APU，它将 CPU 和 GPU 结合在同一个封装中，产品定位是与英伟达的Grace Hopper Superchips竞争。

MI300A 与 MI300X 采用相同的基本设计和方法，MI300A采用6个 XCD（计算单元），4个IO die（接口芯片），并8个HBM3堆栈，它拥有高达256MB的AMD Infinity Cache，在设计上采用了3.5D封装的设计。

AMD MI300A性能

不过MI300X 采用 12Hi HBM3 堆栈，容量为 192GB，而 MI300A 使用 8Hi 堆栈，容量为 128GB。调整内存，是为了抑制功耗、热量和成本，这些是传统 HPC（高性能计算市场）市场最在意的点。

AMD MI300A架构规格

这款APU有一个很大的优势，它无需在CPU\GPU直接进行数据传输。在产品设计上，MI300A的内存可以同时支持GPU、GPU，这意味着，它无需在 CPU 和 GPU 之间进行数据传输，能节省下大量的工作和消耗。

AMD 表示 MI300A 的能效是 NVIDIA GH200的两倍。这款产品也将是H200的主要竞争对手。

MI300A 与H200对比

功耗上，AMD Instinct MI300X的额定功率为750W，比Instinct MI250X的500W提升了50%，比NVIDIA H200多了50W。

这款性能强大的APU芯片，也是AMD为El Capitan 超级计算机提供动力的芯片，El Capitan将成为世界上第一台 2 Exaflop 超级计算机。这也侧面证明了AMD的实力。

MI300A 在处于量产中，将在不久后上市。

发布ROCm 6加速器，绕开Cuda壁垒

虽然在硬件上有不错的性能，但AMD的软件能力一直较弱，难以支持开发者完成各种工作。

在发布会上，AMD 首席技术官 Victor Peng 分享了 ROCm 的最新进。ROCm 是 AMD 的开源软件栈，它是Nvidia CUDA 的竞争对手。下一代ROCm 6 将于本月末推出。

这款ROCm 6软件栈主要针对生成式 AI（尤其是大型语言模型）进行了优化，可以支持、高级图形和内核优化、优化库和最先进的注意力算法（attention algorithms）等。

在运行vLLM时，ROCm 6能带来2.6倍的改进，与 MI300X 和 ROCm 5 的结合相比，ROCm 6能为 MI300X带来8倍的优化。

ROCm 6软件栈与上一代产品对比

目前，Instinct 系列上运行着 62,000 个 AI 模型。 Peng 表示，ROCm 6 的到来，将会让AMD 在软件上得到更广泛的拓展，未来会有更多模型在 MI300X 上运行。

Peng认为，开放生态系统的ROCm相比封闭的Nvidia Cuda具有优势。

例如，随着数据中心对GPU的需求量越来越大，如何将不同的GPU串联、进行通信，成为让数据中心运行更大规模数据的关键之一。AMD 的Infinity Fabric 技术是对外开放的。而Nvidia 的 CUDA 则是专有的系统。对AMD来说，这将有效拓展网络协议合作公司数量。

未来，AMD 会继续与 Hugging Face 和 PyTorch 等合作，构建开源生态系统。

OpenAl也宣布，在Triton 3.0中会添加了AMD Instinct加速器的支持，希望提供开箱即用的支持，让开发人员可以在AMD硬件上做更多工作。

锐龙8040：让电脑跑起来大模型

除了数据中心市场，消费者市场也一直是AMD关注的重要市场。

AMD CEO 苏姿丰表示，AMD会将NPU 功能XDNA集成到锐龙7040 芯片中，让锐龙7040具有人工智能加速功能，帮助在电脑上运行人工智能应用。

此外，苏姿丰宣布推出锐龙8040系列，代号Hawk Point。AMD 声称 AI 工作负载的性能提高了60%。预计从 2024 年第一季度开始，为华硕、戴尔、惠普、联想和 Razer 等领先 OEM 厂商将供货

锐龙8040系列

为了让芯片更好地用起来，AMD也一直在Windows系统上构建启用人工智能加速的软件生态系统。

目前，AMD也与微软达成合作，希望利用AI处理能力扩大 AI 生态系统。配备锐龙 8040 系列处理器后，用户可以访问开箱即用的使用 AI，锐龙也会为用户提供隐私保护功能。

AMD也发布了 Ryzen AI 1.0 软件，这款软件将帮助客户在配备了 NPU 的笔记本电脑上轻松部署人工智能模型，支持在PyTorch 或 TensorFlow 等框架中训练的机器学习模型。而通过Hugging Face 提供的预先优化过的模型库，用户可以在几分钟内开始启动并运行 AI 模型。

此外，苏姿丰还透露了将于明年推出的下一代“Strix Point”处理器，锐龙8040相比，支持生成式AI的性能会提高三倍。

2023年，英伟达在数据中心几乎占据所有市场，到2024年，随着AMD多款产品的推出，以及英特尔Gaudi 3产品的上市，数据中心市场将迎来新的市场竞争格局。