英伟达Grace Hopper忙于科学研究|gpu|grace|hopper|nvidia|人工智能|英伟达gr

英伟达(Nvidia)最新推出的Grace Hopper超级芯片(GH200)处理器已在全球9个新系统中亮相。GH200是英伟达最近发布的一款芯片，它消除了CPU/GPU通信路径中的PCI总线。

正如英伟达在ISC 2024上宣布的那样，即将上线的基于Grace Hopper的新型超级计算机包括法国CEA和Eviden的EXA1-HE；波兰Cyfronet学术计算机中心的Helios；惠普企业在瑞士国家超级计算中心的Alps；德国于利希（Jülich）超级计算中心的JUPITER；伊利诺伊大学厄巴纳-香槟分校国家超级计算应用中心的DeltaAI；由筑波大学计算科学中心和东京大学信息技术中心共同建立的日本高级高性能计算联合中心的Miyabi 。

今年4月，法国替代能源和原子能委员会(CEA)和Atos集团旗下的Eviden公司宣布交付基于Eviden公司BullSequana XH3000技术的EXA1-HE超级计算机。BullSequana XH3000架构提供了一种新的专利温水冷却系统，而EXA1-HE则配备了基于Grace Hopper的477个计算节点。

英伟达超大规模和高性能计算副总裁Ian Buck表示:“人工智能正在加速对气候变化的研究，加速药物研发，并在数十个其他领域取得突破。”“Grace Hopper驱动的系统正在成为高性能计算的重要组成部分，因为它们能够在提高能源效率的同时改变行业。”

此外，英国布里斯托尔大学的Isambard- AI和Isambard 3以及美国洛斯阿拉莫斯国家实验室和德克萨斯高级计算中心的系统也加入了使用Grace CPU和Grace Hopper平台的英伟达基于arm超级计算机的浪潮。

消除PCI中间路径

Grace Hopper的设计是Hopper GPU结合基于arm的Grace CPU。在Grace Hopper之前，CPU(通常是X86)使用一个或多个基于PCI总线的GPU。这些额外的GPU必须通过PCI总线进行数据传输通信，因此，会创建两个或更多不同的内存域：CPU域和GPU域。这些域之间的数据传输必须通过PCI总线，这常常成为瓶颈。

Grace Hopper使用NVLink-C2C互连连接CPU和GPU，提供单个共享内存域。这是一种内存一致、高带宽和低延迟的互连。它是Grace Hopper处理器的核心，提供高达900Gb /s的总带宽。

主权人工智能和高性能计算

随着世界各国认识到主权人工智能的战略重要性，构建新的、更高效的基于人工智能的超级计算机的动力正在加速——各国都在着力投资于国内拥有和托管的数据、基础设施和科技人才，以促进创新。

GH200结合了基于arm的Grace CPU和Nvidia 的Hopper GPU架构，是面向全球科学超级计算中心的全新优化设计。许多中心计划在几个月内而不是几年的时间完成从系统安装到真正的科学研究。

例如，Isambard - AI第一阶段由HPE Cray超级计算机EX2500和168个英伟达GH200超级芯片组成，使其成为有史以来最高效的超级计算机之一。今年夏天，当剩下的5280颗Nvidia Grace Hopper超级芯片抵达布里斯托大学的国家复合材料中心时，性能将提高32倍。

布里斯托尔大学教授Simon McIntosh-Smith表示:“Isamard -AI将英国定位为人工智能领域的全球领导者，并将有助于促进国内外的开放式科学创新。”“通过与英伟达的合作，我们以创纪录的时间交付了项目的第一阶段，当今年夏天完成时，我们将看到性能的巨大飞跃，以推进数据分析、药物发现、气候研究和更多领域。”