特写 还记得高性能计算总是和 x86 有关的日子吗?整整十年前,TOP500(由学术界每年两次维护的最强计算机列表)中几乎九成的超级计算机都是基于英特尔的。如今,这一比例降至 57%……

英特尔曾经主宰高性能计算市场,但现在影响力在减弱。如今,其他处理器正在显著崭露头角。

自从1970年代中期Cray首创向量处理器以来,超级计算的发展经历了多次波动(向量处理器在处理大数据集的单一操作上表现得非常出色)。

接着出现了精简指令集芯片(RISC)架构,像 64 位的 DEC Alpha、IBM POWER、Sun/Fujitsu SPARC、SGI MIPS 和 HP PA-RISC 等芯片就是代表。每种架构都提供了独特的性能特征。它们更简单的指令集使得指令解码和流水线处理速度更快,并且比基于向量的系统更适合通用用途。

RISC 面临的主要问题是经济性。小批量生产的芯片成本远高于像 x86 这样的商品芯片。美国国家航空航天局(NASA)意识到了这一点,并早在 1994 年就开始在其 Beowulf 超级计算机集群中使用英特尔芯片。它证明了并行使用便宜的芯片在性能上可以接近甚至匹敌专用硬件,同时大幅降低了成本。

1997年,英特尔的 ASCI Red 紧随其后,成为首台使用 9,152 个为工作站设计的 Pentium Pro 处理器的 teraFLOPS 机器。

英特尔获得了市场份额,但 GPU 的重要性却越来越明显。Nvidia 在 2006 年推出的 CUDA 将图形处理器转变为通用计算机器,为并行数据工作负载带来了显著的速度提升。

市场分析公司 Intersect360 Research 的 CEO Addison Snell 说:“正是 AI 趋势和超大规模计算的发展,真正为 CPU 侧超越 x86 的架构带来了机会。市场中一个大且快速增长的部分正在追逐加速器,主要是来自 Nvidia 的 GPU,这确实推动了许多架构的发展。”

不过,这些 GPU 还是需要 CPU 来处理一部分工作负载。

这些 CPU 需要处理的负载包括作业调度、工作流管理、I/O 以及不容易并行化的标量操作。“比如说,计算一组数字的平均值,对吧?GPU 在这方面的速度并不比 Arm 芯片或 x86 芯片快,”Cambria-AI Research 的创始人兼首席分析师 Karl Freund 解释道。“所以当你完成一层后,想在节点之间计算平均值时,嗯,就让 Arm 来处理吧。”

无论是来自英特尔还是 AMD 的 x86 芯片,都迅速增长,超越了市场上的 RISC 芯片,越来越多地与 GPU 一起进行重负载的并行处理。例如,2012 年,Oak Ridge 的 Titan 超级计算机通过将 AMD Opteron 与 Nvidia K20 GPU 配对,在 18,688 个节点上实现了 17.6 petaflops,登顶 TOP500 列表。

Nvidia 在高性能计算 (HPC) 领域的 GPU 霸主地位源于其完整且紧密集成的技术栈,包括硬件和软件。

Intersect360 Research 的高级分析师 Steve Conway 表示:“Nvidia 的更大优势在于软件方面。他们很早就对管理这个名为 CUDA 的庞然大物进行了软件投资。”

他说,这个技术栈才是公司的真正护城河。它在当前商业开发者和即将到来的大学开发者中进行了广泛而深入的投资。

AMD 在 CPU 和 GPU 方面都显示出相当大的潜力。其 EPYC 架构针对服务器和嵌入式系统,帮助 Oak Ridge 在 2023 年再次以 Frontier 升至榜首,搭载 9,472 个 CPU 和 37,888 个 AMD Instinct GPU(其数据中心 GPU 品牌)。

该公司的 Milan、Genoa 和 Turin EPYC 代际逐步提高了芯片密度,推动其取得更多重大胜利。11 月,劳伦斯利弗莫尔国家实验室 (LANL) 的 El Capitan 超级计算机保持了其榜首地位,搭载了 AMD EPYC 和 Instinct 组合。

布里斯托超级计算中心主任 Simon McIntosh-Smith 认为 AMD 前景广阔。“AMD 正变得越来越可行。硬件真的很好,和 Nvidia 在同一个水平上。他们传统上在软件方面不够强大,”他说,并呼吁在这方面进行更多投资。

虽然 AMD 在成功的 x86 HPC 市场上,AMD 已经超越了 Intel,获得了相当大的市场份额,但 Arm 在该领域也是一个强有力的竞争者。由巴塞罗那超级计算中心于 2011 年启动的 Mont-Blanc 项目,使用嵌入式 Arm 芯片在实验集群中验证了 Arm 架构。这是 HPC 机器中对 Arm 架构的首次实验之一。

近十年后,Fugaku 于 2020 年在日本理研计算科学中心部署,成为 Arm 的一项重大成就。这台 442 petaFLOPS 的巨型计算机使用 48 核 A64FX 处理器,使其登上 TOP500 榜首。

一年后,在 2021 年,Arm 在其 Neoverse 数据中心处理器设计中引入了向量处理,推出了 Neoverse V1 CPU,具备可扩展向量扩展(SVE)功能。

Arm 在 HPC 领域的一个重要战略立足点是与 Nvidia 的合作。该合作于 2021 年宣布,促成了 Grace 的诞生,这是一款基于 Arm 架构的 Nvidia 芯片,与其 Hopper GPU 结合,形成了 Grace Hopper 超级芯片。

超过40个超级计算机项目宣布支持Grace Hopper架构,包括德国的Jupiter系统,该系统刚刚成为欧洲第一个达到1 exaFLOPS的超算系统。

研究还显示,Arm芯片的能效很高。例如,2023年在AI系统中的基准测试发现,运行Arm芯片时的能耗节省约为25-30%,与可比的x86芯片相比。

布里斯托超级计算中心也选择了Arm架构,2018年开始使用首台Isambard超级计算机。现在,它的Isambard-AI超级计算机是基于Nvidia Grace Hopper节点构建的。它是英国最大的超级计算机,拥有超过5500个Grace Hopper节点。

Nvidia看起来准备开发自己的CPU架构。该公司与Arm签订了为期20年的知识产权许可协议,并已表示将使用该知识产权构建自己的核心,这可能会与现成的Neoverse核心有所不同。

虽然Arm今天取得了巨大的进展,但还有其他竞争者在前方。其中之一是RISC-V,它在许可策略上与Arm大相径庭,RISC-V的策略是完全免费。RISC-V是在加利福尼亚大学伯克利分校构思的,是一种完全开放的指令集架构,没有任何许可费用。

这可是个大优势,战术计算实验室(TCL)的首席科学家兼创始人John Leidel说。这位Cray和硅图形公司的老兵在软件开发和硬件设计方面有着丰富的历史。他现在经营一家专注于高性能计算(HPC)和高性能数据分析的新型硬件和软件的小型研发公司。

“如果你想定制一个x86处理器来满足某个特定的科学应用,就得从Intel那里申请许可,”他说。“然后经历一个非常繁琐的过程,花费数十亿美元。”

当然,Arm处理器也是这样。然而,他表示,这并不是RISC-V相对于x86的唯一优势。那个老旧的架构背负着很多负担。

“x86是一种遗留架构,按理说必须支持x86处理器历史上所有的遗留指令,”Leidel指出。1989年为某人桌面会计系统写的程序,至今仍得在现代x86芯片上运行,而这些芯片正是TOP500机器里的。

“RISC-V远离了那个标准。他们说这绝对是疯狂的,”他解释道。“我们为什么不从头开始,做个干净的设计,清理一下白板,把事情从一开始就做好呢?”

RISC-V 的理念是提供一个基线指令集,然后允许人们在其基础上构建自己的可选扩展,McIntosh-Smith 说。这样,他们可以构建针对自己独特应用的定制芯片。

McIntosh-Smith 并不信服。他指出,支付 Arm 许可证是有原因的,这与更先进的工具链密切相关。

“免费实现的质量和性能并不等同于,比如在苹果设备或任何云服务中使用的高端 Arm 核心,”他解释道。“开源中的东西不会具备竞争力的最先进技术。它们会是教科书上说的那种足够好,但并不真正具有竞争力。”

他还提到了测试和验证套件,这需要数十年的投资积累。“你无法免费获得这些 RISC-V 的东西,”他说。当你自己开发所有这些东西时,免费开放系统的优势可能会消失。

但 RISC-V 还有另一个优势,Etienne Walter 非常想谈谈。他是欧洲处理器倡议(EPI)的主任,该倡议于 2018 年启动,旨在使用 RISC-V 开发高性能计算技术,用于加速器。该倡议在 10 个国家拥有 27 个合作伙伴。

该倡议采取了双架构战略:Arm 用于通用处理器,RISC-V 用于专用加速器。后者包括基于 RISC-V 指令集架构中的向量扩展的 CPU。EPI 于 2021 年设计出了功能性 RISC-V 加速器测试芯片。

除了由巴塞罗那超级计算中心提供的向量加速器,EPI 还致力于可变精度加速和张量加速器。

EPI 现在即将结束,将接力棒交给于 3 月启动的欧洲 RISC-V 数字自主(DARE)项目。该项目与 13 个国家的 38 个合作伙伴共同拥有 2.4 亿欧元的预算。

该倡议由巴塞罗那超级计算中心协调,目前计划持续到 2030 年。它将开发一个通用处理器、一个向量加速器和一个人工智能处理单元。

为什么要花时间做这些?快速浏览一下美国的外交政策,可能就是原因。随着政治和经济关系的松动,主权变得越来越重要。

“这对我们来说是关键。我们必须记住这个问题,并准备一些潜在的解决方案以防万一,”沃尔特说,“即使我们知道欧洲的水平与美国不同,我们在专业知识和解决方案上也不具备同样的水平。”

康威同情那些意识到高性能计算(HPC)将对经济发展变得越来越重要的地方政府,因此他们不想发现自己依赖于外国势力。但这其中有一些细微的差别。他很难想象完全的HPC主权。

“你依赖于来自中国或其他地方的锂,你依赖于来自荷兰的先进光刻技术,”他说。“在这方面,美国在处理器层面上也并不完全主权。他们在每个国家都谈论这个,仿佛这是一个合理的目标,但在短期内可能并不是。”

Arm花了大约十年的时间才建立起一个强大的超级计算示例,凭借其芯片设计。2011年推出64位处理器并不足够;它需要合适的软件堆栈和验证生态系统。

现在RISC-V也必须做到这一点。“生态系统还没有到位,或者说还不够成熟,肯定的,”沃尔特说。“要建立一个稳定成熟的环境,还有很多工作要做,但我毫不怀疑这最终会发生。这只是时间问题。”

这需要多长时间呢?DARE的第一阶段SGA-1的目标是在三年内实现“一个完全欧洲的HPC和AI超级计算硬件/软件堆栈”。接下来它需要说服大家来使用它。

斯内尔持谨慎乐观态度。“我认为RISC-V在未来五年确实有很大的潜力,”他说。“我们觉得它只比Arm稍微落后一些,而它确实需要一个能够推动它的人。”

RISC-V有一些向前发展的动向。十月,Meta收购了RISC-V初创公司Rivos。这将使Meta在依赖第三方硅的情况下,拥有一个内部的CUDA兼容混合CPU-GPU RISC-V架构。据报道,Meta还在内部开发自己的RISC-V芯片。

HPC处理器经历了一个周期,最初有多种多样的专有芯片,在商品芯片时代逐渐被淘汰。如今,情况似乎又在朝着相反的方向发展。有几个关键参与者,包括一些在等待时机的公司。有超大规模的公司,它们本身就是市场,并且正在做一些有趣的事情。微软有Maia,AWS有Inferentia和Trainium,谷歌有TPU,它们都是定制的ASIC。

展望未来,事情会变得更加奇妙和美好。Cerebras拥有晶圆级引擎,通过将所有内容保持在单个芯片上来绕过互连瓶颈。然后还有硅光子学项目,旨在通过直接在芯片上使用光计算互连来降低功耗。

在高性能计算领域,钱涉及得这么多时,潮流变化的速度很慢。但现在有这么多有趣的选择,而且还有更多的选择正在酝酿中,似乎不可能永远都是x86的世界。®