近年来,AI 训练和推理计算的需求促使芯片制造商积极创新——内存带宽、数据格式、互连和总计算输出的效率,如今与原始 FLOPS 同样重要。

各家公司都瞄准了生成式 AI 训练和高性能计算等高要求场景,在这些场景下,AI 工具 越来越依赖快速加速器来处理海量数据。

不同品牌以各自的计算平台特性应对这一挑战——我们希望帮助大家理解这些差异,并澄清 Ascend 950 系列、H200 和 MI300 Instinct 的比较。

华为 Ascend 950、Nvidia H200 和 AMD MI300 Instinct 比较

类别

华为 Ascend 950DT

NVIDIA H200

AMD Radeon Instinct MI300

芯片系列/名称

Ascend 950 系列

H200 (GH100, Hopper)

Radeon Instinct MI300 (Aqua Vanjaram)

架构

华为专有 AI 加速器

Hopper GPU 架构

CDNA 3.0

工艺/制造厂

尚未公开确认

5 纳米 (台积电)

5 纳米 (台积电)

晶体管

未公开

80 亿

1530 亿

芯片尺寸

未公开

814 mm²

1017 mm²

优化

解码阶段的推理和模型训练

通用人工智能和高性能计算的加速

人工智能和高性能计算的加速

支持的格式有

FP8, MXFP8, MXFP4, HiF8

FP16, FP32, FP64(通过 Tensor/CUDA 核心实现)

FP16, FP32, FP64

最高性能

1 PFLOPS(FP8、MXFP8、HiF8),2 PFLOPS(MXFP4)

FP16:241.3 TFLOPS,FP32:60.3 TFLOPS,FP64:30.2 TFLOPS

FP16:383 TFLOPS,FP32/FP64:47.87 TFLOPS

向量处理

SIMD + SIMT 混合,128 字节内存访问粒度

使用 CUDA 和 Tensor 核心的 SIMT

SIMT + 矩阵/张量核心

内存类型

HiZQ 2.0 专有的 HBM(用于解码和训练的变体)

HBM3e

HBM3

内存容量为

144 GB

141 GB

128 GB

内存带宽

4 TB/s(每秒)

4.89 TB/s(每秒)

6.55 TB/s(每秒)

内存总线宽度

未提供

6144位

8192位

L2缓存

未提供

50 MB

未提供

互连带宽

2 TB/s

未提供

未提供

形态因素

卡,SuperPoD(服务器)

PCIe 5.0 x16(仅限服务器/HPC)

PCIe 5.0 x16(计算卡)

基础时钟/提升时钟

未提供

1365 / 1785 MHz

1000 / 1700 MHz

核心数/着色器数

未指定

CUDA: 16,896, Tensor: 528 (第4代)

14,080着色器,220计算单元,880张量核心

功率 (TDP)

未指定

600 W

600 W

总线接口

未指定

PCIe 5.0 x16

PCIe 5.0 x16

输出

无输出 (服务器使用)

无输出 (仅适用于服务器/HPC)

无输出 (计算卡片)

目标场景

大规模训练与解码推理 (LLMs,生成型AI)

AI 训练,HPC,数据中心

AI/HPC 计算加速

发布与可用性

2026 年第四季度

2024 年 11 月 18 日

2023 年 1 月 4 日

架构和设计方法

架构和设计方法

华为的 Ascend 950 系列是一种专有的 AI 加速器架构,针对推理的解码阶段以及模型训练进行了优化,而非传统的GPU。

其设计融合了 SIMD 和 SIMT 处理风格,具有 128 字节的内存访问粒度,旨在兼顾吞吐量和灵活性。

Nvidia的H200基于Hopper GPU架构,集成了16,896个CUDA核心和528个第四代Tensor核心。

它采用单芯片的GH100 GPU,使用5纳米的TSMC工艺制造,确保与Nvidia的软件栈和广泛的生态系统兼容。

AMD的MI300 Instinct使用Aqua Vanjaram GPU,基于CDNA 3.0架构,采用芯片级MCM设计,配备220个计算单元和880个矩阵核心。

这种设计提供了巨大的晶体管预算,并专注于高性能计算。

Ascend 950在使用FP8、MXFP8或HiF8数据格式时,峰值性能为1 petaflop,而使用MXFP4时可翻倍至2 petaflops。

这突显了华为对新兴低精度格式的重视,旨在提高推理过程的效率,同时不牺牲准确性。

Nvidia的H200在FP16下提供241.3 teraflops,在FP32下提供60.3 teraflops,而AMD的MI300在FP16下提供383 teraflops,FP32和FP64工作负载下接近48 teraflops。

MI300在FP64与FP32的平价,强调了其在科学计算中的适用性,双精度在此至关重要,而Nvidia则更侧重于AI的混合精度加速。

内存架构对大型语言模型的训练影响很大。

华为将Ascend 950配备144GB的HiZQ 2.0专有HBM,提供4TB/s的带宽和2TB/s的互连速度。

Nvidia为H200配备了141GB的HBM3e内存和4.89TB/s的带宽,略微领先于原始吞吐量。

AMD的MI300以128GB的HBM3脱颖而出,配备更宽的8192位总线和领先的6.55TB/s内存带宽。

在大规模模型训练或内存密集型仿真中,AMD在带宽上的优势可以转化为更快的数据移动,尽管其总内存容量不及华为。

H200和MI300的热设计功耗均为600W,适合无视频输出的PCIe 5.0 x16服务器配置,突显了它们的数据中心导向。

华为尚未披露官方的TDP数据,但提供了两种卡格式和集成的SuperPoD服务器,暗示其在AI基础设施解决方案中的部署灵活性。

其2TB/s的互连带宽可能是多芯片扩展在数据中心环境中的一个重要因素,尽管关于芯片尺寸和晶体管数量的细节仍未公开。

Nvidia得益于成熟的NVLink和InfiniBand生态系统,而AMD的多芯片模块设计则旨在减少计算芯片之间的延迟。

华为显然将Ascend 950瞄准大规模训练和生成AI的解码阶段推理,这是Nvidia长期占据的市场。

其预计在2026年第四季度可用,这意味着Nvidia的H200(于2024年末发布)和AMD的MI300(自2023年初以来可用)已经占据了时间优势。

当Ascend 950硬件到达客户时,两个竞争对手可能已经对其平台进行了更新。

不过,华为对高效低精度格式的重视,以及与其网络硬件的紧密集成,可能会吸引那些寻求替代美国供应商的买家。

换句话说,这些加速器反映了不同品牌的理念差异。

AMD优先考虑内存带宽和双精度在HPC工作负载中的优势,而Nvidia则利用成熟的生态系统和软件支持来维持在AI训练中的主导地位。

华为则试图通过强劲的FP8级性能和高容量的专有内存来挑战这两者。