打开网易新闻 查看精彩图片

在今年11月于美国亚特兰大举行的SC24会议上公布的Top500超级计算机排名中,比起今年6月在德国汉堡的ISC24会议中发布的榜单,出现了更多的变动,尤其值得关注的是新系统的部署和发展趋势。

最大的新闻是由由惠普企业(Hewlett Packard Enterprise)构建、搭载AMD混合CPU-GPU运算引擎的El Capitan系统正式上线运行,并且如预期般地夺下榜首,其算力大幅领先美国的其他竞争对手,以及传闻中中国的超级计算机。

El Capitan算力惊人,AMD Instinct MI300A功不可没

El Capitan系统的部分算力(目前尚未公布具体规模)已由劳伦斯利佛摩国家实验室进行测试,其中包含43,808个AMD Instinct MI300A加速器,并在多项基准测试中取得优异成绩,包括自1993年以来用于超级计算机排名的HPL测试。El Capitan参与HPL测试的部分峰值理论性能达到2,746.4 petaflops,远超先前预期的2.3 exaflops至2.5 exaflops。(此处指的是64位元精度浮点运算。)其HPL测试的峰值持续性能为1,742 petaflops,计算效率达到63.4%。这符合新加速系统上市时的预期效率水准(通常以65%为基准),预计El Capitan在2025年的后续排名中,随着系统逐步通过劳伦斯利佛摩实验室的验收,将会展现更强的理论算力。

AMD Instinct MI300A架构回顾

AMD Instinct MI300A于2023年12月与其兄弟产品MI300X(搭载8个GPU芯片,不含CPU核心)一同亮相。MI300A拥有3个芯片,共包含24个Genoa Epyc核心,以及6个Antares GPU流媒体处理器芯片,运行频率为1.8 GHz。在Cray EX系统中,所有MI300A运算引擎都通过HPE的Rosetta Slingshot 11 Ethernet互联技术相互联接。据测试结果显示,El Capitan系统中共有105万个Genoa核心和近1000万个GPU流媒体处理器。这无疑需要管理庞大的并行运算能力,但也并非遥不可及。例如,位于中国无锡国家超级计算中心的“神威·太湖之光”超级计算机自2016年以来一直位居Top500榜单,目前仍是全球第15强的超级计算机(至少在参与HPL测试的系统中),其核心总数达到1065万个。

Top500排名新趋势:AMD崛起

每一期Top500榜单都包含新旧系统,随着新系统通过HPL测试并提交结果,算力较低的旧系统将会跌出榜单,即使它们仍在使用中。此外,许多位于美国、欧洲和中国的系统并非以HPC模拟和建模为主要任务,却也参与排名,因为相关企业及其OEM合作伙伴希望借此提升排名。虽然计算机集群的HPL资讯很有参考价值,但这会扭曲超级计算机的排名。事实上,长期以来,只有Top50的系统才被视为真正的超级计算机,因此需要寻找更有效的排名方式。

今年6月,我们开始只看榜单中新进入的机器,以此来衡量HPC领域的发展趋势。本次我们将再次分析2024年11月的Top500排名,观察近期用户的采购和测试情况。目前已出现一些有趣的趋势,我们将持续关注这些变化。

在2024年6月的Top500榜单中,共有49台新系统上榜,这些系统的64位元浮点精度峰值总性能达到1,226.7 petaflops,其中7台基于Nvidia Grace Arm服务器CPU和Hopper H100 GPU加速器的新超级计算机(它们确实是用于HPC工作的超级计算机)贡献了663.7 petaflops的峰值性能,占2024年6月榜单添加算力的54.1%。采用AMD Epyc处理器搭配Nvidia GPU的系统占添加算力的8.1%,而采用Intel Xeon处理器搭配Nvidia GPU的系统则占17.5%。此外还有23台全CPU系统,这些系统在许多HPC环境中仍然是必要的,以确保软件兼容性,但这些系统的总算力仅占添加64位元浮点运算能力的12.1%。

而在2024年11月的Top500排名中,AMD成为HPC领域添加算力的最大赢家。本次共有61台新系统上榜,以下是按运算引擎架构分类的结果:

打开网易新闻 查看精彩图片

本次只有4台新的Grace-Hopper系统上榜,且规模相对较小,仅占新系统总峰值性能5,211.6 petaflops的3.8%。

然而,有25台新系统采用Intel Xeon CPU作为主机,Nvidia GPU作为卸载引擎,这些系统的总算力达到969.6 petaflops,占添加总算力的18.6%。有趣的是,戴尔为其自身使用构建了一台名为IronMan的5.3 petaflops超级计算机,采用AMD Instinct MI300A加速器搭配Intel Xeon CPU。(原因不明。)此外,还有11台系统采用AMD Epyc CPU主机搭配Nvidia GPU加速器,总峰值性能为247.7 petaflops。所有搭载Nvidia GPU的系统占2024年11月Top500添加总算力的39%。

El Capitan及其4个搭载MI300A混合运算引擎的兄弟系统在本轮排名中彻底击败Nvidia,贡献了3,134.6 petaflops的FP64算力,占添加总算力的60.1%。此外,由于Eni SpA在意大利部署的HPC6系统(该系统于今年1月报道过,基本上是美国橡树岭国家实验室Frontier超级计算机的缩小版),以及其他2台采用AMD CPU搭配AMD MI250X GPU的系统,添加算力又增加了619.3 petaflops。

综上所述,AMD GPU驱动了2024年11月Top500添加算力的72.1%。

AMD GPU算力占比首超Nvidia

现在,让我们将视野扩展到11月Top500榜单中的所有209个加速系统。以下树状图显示了这些系统的算力分布:

打开网易新闻 查看精彩图片

上图中方块的大小代表HPL测试的总持续性能。左上角的绿色区域以El Capitan和Frontier为首,包含所有采用AMD CPU和GPU组合的系统。右上角是Nvidia Grace-Hopper系统,蓝色、灰色和红色方块代表采用各种Nvidia GPU的系统;右下角的青色代表Intel GPU系统(数量很少),而burnt orange色代表纯CPU系统。

我们还按加速器类型对榜单上的209个加速系统进行排序,并汇总了各架构的系统数量、峰值teraflops和核心总数:

打开网易新闻 查看精彩图片

目前,采用Intel Ponte Vecchio Max GPU加速器的系统只有4个(占Top500的1.9%),但其峰值性能占比达到14%,其中绝大部分来自部署在阿贡国家实验室的Aurora系统。

采用Nvidia GPU的系统共有183个,占2024年11月Top500加速系统总数的87.6%,但其FP64精度总峰值算力占比仅为40.3%。采用AMD GPU进行主要运算的系统有19个,仅占加速系统总数的9.1%,但其FP64峰值总算力占比高达44.9%。得益于El Capitan、Frontier、HPC6和其他16个系统,AMD在Top500榜单的算力占比上成功超越Nvidia。

纵观Top500榜单上的所有500个系统,加速系统占41.8%,贡献了17,705 petaflops总算力的83.4%,以及1.286亿个核心(包括流媒体处理器)的55.4%。

打开网易新闻 查看精彩图片

预期未来:突破exascale瓶颈,迎接云计算HPC时代

突破百亿亿次等级的算力比预期更具挑战性,这主要是受限于预算和功耗,而非任何技术上的问题。中国的每秒百亿亿次浮点运算超级计算机“天河三号”和“海洋之光”尚未向Top500组织者提交正式的HPL性能结果,因此未参与排名,但它们证明,如果不考虑功耗和成本,那么几年前就能达到百亿亿次等级的超级计算机。(根据我们一年前的估计,天河三号的FP64峰值性能为2.05 exaflops,海洋之光为1.5 exaflops。)

Top500榜单的算力增长速度正在放缓,入门门槛也越来越高。本次榜单的最低算力要求为2.31 petaflops,而进入Top100则需要12.8 petaflops。尽管El Capitan等大型系统的出现拉高了整体算力,但小型HPC中心的算力增长速度不足以维持Top500算力每两年增加一倍的趋势。这可能与云计算HPC的兴起有关,但目前尚缺乏相关数据支持。

结论

AMD在本次Top500超级计算机排名中表现亮眼,El Capitan系统的成功以及AMD GPU算力的提升,都显示出AMD在HPC领域的竞争力。未来,随着更多搭载AMD Instinct MI300A的系统上线,AMD有望在Top500排名中继续保持领先地位,并推动HPC领域的发展。