近年来,AI 训练和推理计算的需求促使芯片制造商积极创新——内存带宽、数据格式、互连和总计算输出的效率,如今与原始 FLOPS 同样重要。
各家公司都瞄准了生成式 AI 训练和高性能计算等高要求场景,在这些场景下,AI 工具 越来越依赖快速加速器来处理海量数据。
不同品牌以各自的计算平台特性应对这一挑战——我们希望帮助大家理解这些差异,并澄清 Ascend 950 系列、H200 和 MI300 Instinct 的比较。
华为 Ascend 950、Nvidia H200 和 AMD MI300 Instinct 比较
类别
华为 Ascend 950DT
NVIDIA H200
AMD Radeon Instinct MI300
芯片系列/名称
Ascend 950 系列
H200 (GH100, Hopper)
Radeon Instinct MI300 (Aqua Vanjaram)
架构
华为专有 AI 加速器
Hopper GPU 架构
CDNA 3.0
工艺/制造厂
尚未公开确认
5 纳米 (台积电)
5 纳米 (台积电)
晶体管
未公开
80 亿
1530 亿
芯片尺寸
未公开
814 mm²
1017 mm²
优化
解码阶段的推理和模型训练
通用人工智能和高性能计算的加速
人工智能和高性能计算的加速
支持的格式有
FP8, MXFP8, MXFP4, HiF8
FP16, FP32, FP64(通过 Tensor/CUDA 核心实现)
FP16, FP32, FP64
最高性能
1 PFLOPS(FP8、MXFP8、HiF8),2 PFLOPS(MXFP4)
FP16:241.3 TFLOPS,FP32:60.3 TFLOPS,FP64:30.2 TFLOPS
FP16:383 TFLOPS,FP32/FP64:47.87 TFLOPS
向量处理
SIMD + SIMT 混合,128 字节内存访问粒度
使用 CUDA 和 Tensor 核心的 SIMT
SIMT + 矩阵/张量核心
内存类型
HiZQ 2.0 专有的 HBM(用于解码和训练的变体)
HBM3e
HBM3
内存容量为
144 GB
141 GB
128 GB
内存带宽
4 TB/s(每秒)
4.89 TB/s(每秒)
6.55 TB/s(每秒)
内存总线宽度
未提供
6144位
8192位
L2缓存
未提供
50 MB
未提供
互连带宽
2 TB/s
未提供
未提供
形态因素
卡,SuperPoD(服务器)
PCIe 5.0 x16(仅限服务器/HPC)
PCIe 5.0 x16(计算卡)
基础时钟/提升时钟
未提供
1365 / 1785 MHz
1000 / 1700 MHz
核心数/着色器数
未指定
CUDA: 16,896, Tensor: 528 (第4代)
14,080着色器,220计算单元,880张量核心
功率 (TDP)
未指定
600 W
600 W
总线接口
未指定
PCIe 5.0 x16
PCIe 5.0 x16
输出
无输出 (服务器使用)
无输出 (仅适用于服务器/HPC)
无输出 (计算卡片)
目标场景
大规模训练与解码推理 (LLMs,生成型AI)
AI 训练,HPC,数据中心
AI/HPC 计算加速
发布与可用性
2026 年第四季度
2024 年 11 月 18 日
2023 年 1 月 4 日
架构和设计方法
华为的 Ascend 950 系列是一种专有的 AI 加速器架构,针对推理的解码阶段以及模型训练进行了优化,而非传统的GPU。
其设计融合了 SIMD 和 SIMT 处理风格,具有 128 字节的内存访问粒度,旨在兼顾吞吐量和灵活性。
Nvidia的H200基于Hopper GPU架构,集成了16,896个CUDA核心和528个第四代Tensor核心。
它采用单芯片的GH100 GPU,使用5纳米的TSMC工艺制造,确保与Nvidia的软件栈和广泛的生态系统兼容。
AMD的MI300 Instinct使用Aqua Vanjaram GPU,基于CDNA 3.0架构,采用芯片级MCM设计,配备220个计算单元和880个矩阵核心。
这种设计提供了巨大的晶体管预算,并专注于高性能计算。
Ascend 950在使用FP8、MXFP8或HiF8数据格式时,峰值性能为1 petaflop,而使用MXFP4时可翻倍至2 petaflops。
这突显了华为对新兴低精度格式的重视,旨在提高推理过程的效率,同时不牺牲准确性。
Nvidia的H200在FP16下提供241.3 teraflops,在FP32下提供60.3 teraflops,而AMD的MI300在FP16下提供383 teraflops,FP32和FP64工作负载下接近48 teraflops。
MI300在FP64与FP32的平价,强调了其在科学计算中的适用性,双精度在此至关重要,而Nvidia则更侧重于AI的混合精度加速。
内存架构对大型语言模型的训练影响很大。
华为将Ascend 950配备144GB的HiZQ 2.0专有HBM,提供4TB/s的带宽和2TB/s的互连速度。
Nvidia为H200配备了141GB的HBM3e内存和4.89TB/s的带宽,略微领先于原始吞吐量。
AMD的MI300以128GB的HBM3脱颖而出,配备更宽的8192位总线和领先的6.55TB/s内存带宽。
在大规模模型训练或内存密集型仿真中,AMD在带宽上的优势可以转化为更快的数据移动,尽管其总内存容量不及华为。
H200和MI300的热设计功耗均为600W,适合无视频输出的PCIe 5.0 x16服务器配置,突显了它们的数据中心导向。
华为尚未披露官方的TDP数据,但提供了两种卡格式和集成的SuperPoD服务器,暗示其在AI基础设施解决方案中的部署灵活性。
其2TB/s的互连带宽可能是多芯片扩展在数据中心环境中的一个重要因素,尽管关于芯片尺寸和晶体管数量的细节仍未公开。
Nvidia得益于成熟的NVLink和InfiniBand生态系统,而AMD的多芯片模块设计则旨在减少计算芯片之间的延迟。
华为显然将Ascend 950瞄准大规模训练和生成AI的解码阶段推理,这是Nvidia长期占据的市场。
其预计在2026年第四季度可用,这意味着Nvidia的H200(于2024年末发布)和AMD的MI300(自2023年初以来可用)已经占据了时间优势。
当Ascend 950硬件到达客户时,两个竞争对手可能已经对其平台进行了更新。
不过,华为对高效低精度格式的重视,以及与其网络硬件的紧密集成,可能会吸引那些寻求替代美国供应商的买家。
换句话说,这些加速器反映了不同品牌的理念差异。
AMD优先考虑内存带宽和双精度在HPC工作负载中的优势,而Nvidia则利用成熟的生态系统和软件支持来维持在AI训练中的主导地位。
华为则试图通过强劲的FP8级性能和高容量的专有内存来挑战这两者。
热门跟贴