AMD运算能力首次超越NVIDIA，El Capitan成为全球最强超级计算机

在今年11月于美国亚特兰大举行的SC24会议上公布的Top500超级计算机排名中，比起今年6月在德国汉堡的ISC24会议中发布的榜单，出现了更多的变动，尤其值得关注的是新系统的部署和发展趋势。

最大的新闻是由由惠普企业（Hewlett Packard Enterprise）构建、搭载AMD混合CPU-GPU运算引擎的El Capitan系统正式上线运行，并且如预期般地夺下榜首，其算力大幅领先美国的其他竞争对手，以及传闻中中国的超级计算机。

El Capitan算力惊人，AMD Instinct MI300A功不可没

El Capitan系统的部分算力（目前尚未公布具体规模）已由劳伦斯利佛摩国家实验室进行测试，其中包含43,808个AMD Instinct MI300A加速器，并在多项基准测试中取得优异成绩，包括自1993年以来用于超级计算机排名的HPL测试。El Capitan参与HPL测试的部分峰值理论性能达到2,746.4 petaflops，远超先前预期的2.3 exaflops至2.5 exaflops。（此处指的是64位元精度浮点运算。）其HPL测试的峰值持续性能为1,742 petaflops，计算效率达到63.4%。这符合新加速系统上市时的预期效率水准（通常以65%为基准），预计El Capitan在2025年的后续排名中，随着系统逐步通过劳伦斯利佛摩实验室的验收，将会展现更强的理论算力。

AMD Instinct MI300A架构回顾

AMD Instinct MI300A于2023年12月与其兄弟产品MI300X（搭载8个GPU芯片，不含CPU核心）一同亮相。MI300A拥有3个芯片，共包含24个Genoa Epyc核心，以及6个Antares GPU流媒体处理器芯片，运行频率为1.8 GHz。在Cray EX系统中，所有MI300A运算引擎都通过HPE的Rosetta Slingshot 11 Ethernet互联技术相互联接。据测试结果显示，El Capitan系统中共有105万个Genoa核心和近1000万个GPU流媒体处理器。这无疑需要管理庞大的并行运算能力，但也并非遥不可及。例如，位于中国无锡国家超级计算中心的“神威·太湖之光”超级计算机自2016年以来一直位居Top500榜单，目前仍是全球第15强的超级计算机（至少在参与HPL测试的系统中），其核心总数达到1065万个。

Top500排名新趋势：AMD崛起

每一期Top500榜单都包含新旧系统，随着新系统通过HPL测试并提交结果，算力较低的旧系统将会跌出榜单，即使它们仍在使用中。此外，许多位于美国、欧洲和中国的系统并非以HPC模拟和建模为主要任务，却也参与排名，因为相关企业及其OEM合作伙伴希望借此提升排名。虽然计算机集群的HPL资讯很有参考价值，但这会扭曲超级计算机的排名。事实上，长期以来，只有Top50的系统才被视为真正的超级计算机，因此需要寻找更有效的排名方式。

今年6月，我们开始只看榜单中新进入的机器，以此来衡量HPC领域的发展趋势。本次我们将再次分析2024年11月的Top500排名，观察近期用户的采购和测试情况。目前已出现一些有趣的趋势，我们将持续关注这些变化。

在2024年6月的Top500榜单中，共有49台新系统上榜，这些系统的64位元浮点精度峰值总性能达到1,226.7 petaflops，其中7台基于Nvidia Grace Arm服务器CPU和Hopper H100 GPU加速器的新超级计算机（它们确实是用于HPC工作的超级计算机）贡献了663.7 petaflops的峰值性能，占2024年6月榜单添加算力的54.1%。采用AMD Epyc处理器搭配Nvidia GPU的系统占添加算力的8.1%，而采用Intel Xeon处理器搭配Nvidia GPU的系统则占17.5%。此外还有23台全CPU系统，这些系统在许多HPC环境中仍然是必要的，以确保软件兼容性，但这些系统的总算力仅占添加64位元浮点运算能力的12.1%。

而在2024年11月的Top500排名中，AMD成为HPC领域添加算力的最大赢家。本次共有61台新系统上榜，以下是按运算引擎架构分类的结果：

本次只有4台新的Grace-Hopper系统上榜，且规模相对较小，仅占新系统总峰值性能5,211.6 petaflops的3.8%。

然而，有25台新系统采用Intel Xeon CPU作为主机，Nvidia GPU作为卸载引擎，这些系统的总算力达到969.6 petaflops，占添加总算力的18.6%。有趣的是，戴尔为其自身使用构建了一台名为IronMan的5.3 petaflops超级计算机，采用AMD Instinct MI300A加速器搭配Intel Xeon CPU。（原因不明。）此外，还有11台系统采用AMD Epyc CPU主机搭配Nvidia GPU加速器，总峰值性能为247.7 petaflops。所有搭载Nvidia GPU的系统占2024年11月Top500添加总算力的39%。

El Capitan及其4个搭载MI300A混合运算引擎的兄弟系统在本轮排名中彻底击败Nvidia，贡献了3,134.6 petaflops的FP64算力，占添加总算力的60.1%。此外，由于Eni SpA在意大利部署的HPC6系统（该系统于今年1月报道过，基本上是美国橡树岭国家实验室Frontier超级计算机的缩小版），以及其他2台采用AMD CPU搭配AMD MI250X GPU的系统，添加算力又增加了619.3 petaflops。

综上所述，AMD GPU驱动了2024年11月Top500添加算力的72.1%。

AMD GPU算力占比首超Nvidia

现在，让我们将视野扩展到11月Top500榜单中的所有209个加速系统。以下树状图显示了这些系统的算力分布：

上图中方块的大小代表HPL测试的总持续性能。左上角的绿色区域以El Capitan和Frontier为首，包含所有采用AMD CPU和GPU组合的系统。右上角是Nvidia Grace-Hopper系统，蓝色、灰色和红色方块代表采用各种Nvidia GPU的系统；右下角的青色代表Intel GPU系统（数量很少），而burnt orange色代表纯CPU系统。

我们还按加速器类型对榜单上的209个加速系统进行排序，并汇总了各架构的系统数量、峰值teraflops和核心总数：

目前，采用Intel Ponte Vecchio Max GPU加速器的系统只有4个（占Top500的1.9%），但其峰值性能占比达到14%，其中绝大部分来自部署在阿贡国家实验室的Aurora系统。

采用Nvidia GPU的系统共有183个，占2024年11月Top500加速系统总数的87.6%，但其FP64精度总峰值算力占比仅为40.3%。采用AMD GPU进行主要运算的系统有19个，仅占加速系统总数的9.1%，但其FP64峰值总算力占比高达44.9%。得益于El Capitan、Frontier、HPC6和其他16个系统，AMD在Top500榜单的算力占比上成功超越Nvidia。

纵观Top500榜单上的所有500个系统，加速系统占41.8%，贡献了17,705 petaflops总算力的83.4%，以及1.286亿个核心（包括流媒体处理器）的55.4%。

预期未来：突破exascale瓶颈，迎接云计算HPC时代

突破百亿亿次等级的算力比预期更具挑战性，这主要是受限于预算和功耗，而非任何技术上的问题。中国的每秒百亿亿次浮点运算超级计算机“天河三号”和“海洋之光”尚未向Top500组织者提交正式的HPL性能结果，因此未参与排名，但它们证明，如果不考虑功耗和成本，那么几年前就能达到百亿亿次等级的超级计算机。（根据我们一年前的估计，天河三号的FP64峰值性能为2.05 exaflops，海洋之光为1.5 exaflops。）

Top500榜单的算力增长速度正在放缓，入门门槛也越来越高。本次榜单的最低算力要求为2.31 petaflops，而进入Top100则需要12.8 petaflops。尽管El Capitan等大型系统的出现拉高了整体算力，但小型HPC中心的算力增长速度不足以维持Top500算力每两年增加一倍的趋势。这可能与云计算HPC的兴起有关，但目前尚缺乏相关数据支持。

结论

AMD在本次Top500超级计算机排名中表现亮眼，El Capitan系统的成功以及AMD GPU算力的提升，都显示出AMD在HPC领域的竞争力。未来，随着更多搭载AMD Instinct MI300A的系统上线，AMD有望在Top500排名中继续保持领先地位，并推动HPC领域的发展。