NVIDIA 正在推动 HPC 行业借助 AI 系统实现根本性转变。

5 月 12 日 – 16 日,在德国举行的 ISC 2024 期间,NVIDIA 带来众多在超级计算、科学计算领域的最新进展,以下是相关发布的博客与内容简报汇总。

  • 新的 Grace Hopper 系统在 ISC 2024 的 TOP500 和 Green500 中为新一波 E 级超算 AI 系统提供动力。NVIDIA 为 TOP500 和 Green500 中名列前茅的系统提供支持,体现了 Grace Hopper 性能与能效优势。
  • 生成式 AI 正在推动多个科学领域的创新,包括天气预报、计算机科学、材料科学和医疗。
  • Blackwell 将推动新一代科学计算应用。
  • NVIDIA 为全球首批量子加速超级计算机提供动力。

提示:点击下方蓝色标题,即可跳转阅读完整博客内容

NVIDIA 平台推动

超级计算与科学计算突破发展

ISC24 | NVIDIA Grace Hopper 点亮 AI 超级计算新时代

  • 全球 9 台采用NVIDIA Grace Hopper 超级芯片的新型超级计算机即将上线,以加速科学研究和发现,这些系统共计可提供 200 EFLOPS(即每秒 200 百亿亿次计算)的高能效 AI 处理能力。
  • 使用基于 Arm 架构 NVIDIA Grace CPU 超级芯片的超级计算机数量正在逐渐攀升,包括英国布里斯托大学(Bristol)的 Isambard-3、美国洛斯阿拉莫斯国家实验室(LANL)的 Venado、德克萨斯高级计算中心的 Vista 都有基于 NVIDIA Grace CPU 超级芯片的非加速系统上线

ISC24 | NVIDIA Blackwell 平台推动科学计算突破发展

  • NVIDIA 的 Blackwell 平台正在推动新一波科学计算应用,包括高级模拟、AI、量子计算、数据分析等。Blackwell 在这些工作负载中推动创新突破,具有突破性的性能优势。
  • 加速计算和 AI 通过降低能源成本推动科学计算。例如,相较于基于传统 CPU 的系统和其他系统,天气模拟的成本和能耗分别降至其 1/200 和 1/300,数字孪生模拟的成本和能耗则分别降至其 1/65 和 1/58。

NVIDIA 网络平台为科学计算提供极致性能

  • NVIDIA Quantum-X800 InfiniBand 网络平台可为科学计算基础设施提供最高吞吐量,并树立了新的行业标准。
    • 该平台包含 NVIDIA Quantum Q3400 和 Q3200 交换机, 以及 NVIDIA ConnectX-8 SuperNIC,二者组合在带宽上可达上一代产品的 2 倍。
    • Q3400 平台拥有 144 个端口,带宽容量提高了 5 倍。
    • 使用 NVIDIA 的 SHARPv4 技术实现了 14.4 Tflops 的网络计算能力,较上一代产品提高了 9 倍。
  • 性能的飞跃和能效的提高,使科学计算的工作负载完成时间与能耗显著减少。

AI 与 HPC 融合,推动多个科学领域创新

ISC24 | NVIDIA 通过 CUDA-Q 平台为全球各地的量子计算中心提供加速

  • 量子计算为聚变能、气候研究、新药研发等领域带来了大幅加速。因此,研究人员正努力在基于 NVIDIA GPU 的系统和软件模拟未来的量子计算机,以前所未有的速度开发和测试量子算法。
  • NVIDIA Blackwell 架构将助推量子模拟达到新高度,通过最新的 NVIDIA NVLink 多节点互连技术,可以更快地打通数据以提高量子模拟速度。
  • NVIDIA通过 CUDA-Q 平台为全球各地的量子计算中心提供加速
    • CUDA-Q 是一个开源的、与量子硬件无关的 SDK,用于模拟量子计算机和编程量子加速的超级计算机。
    • CUDA-Q 通过一个 CPU、GPU 和 QPU(量子处理器)协同工作的统一编程模型,实现量子计算机模拟和混合应用开发。
    • 德国、日本和波兰的三个超级计算中心正在使用 CUDA-Q 将量子处理器(QPU)与 NVIDIA 加速的超级计算机集成在一起。NVIDIA 正在助力全球各地的国家级超算中心加快量子计算的研究发展。
    • 未来,通过将量子计算机与超级计算机紧密集成,CUDA-Q 还能够使 AI 与量子计算相结合。

ISC24 | 助力科学发展:NVIDIA AI 加速 HPC 研究

  • 科学家和研究人员正在利用 NVIDIA 技术将生成式 AI 应用于代码生成、天气预报、基因研究和材料科学领域的 HPC 工作。

ISC24 | NVIDIA 和 Recursion 利用 AI 超级计算机加快新药研发

  • BioHive-2 被称为制药行业最大的超算系统。BioHive 由 NVIDIA AI 驱动,用于加速医疗领域科学家的工作。在最新一期的 Top 500 榜单中,BioHive-2 位列 35,排名比其上一代上升 100 多位。
  • BioHive-2 搭载Hopper GPU,并通过 Quantum-2 InfiniBand 网络互联。基于 NVIDIA DGX SuperPOD 搭建的 BioHive-2 比初代系统 BioHive-1 快近 5 倍。

加速计算是能效的基石

节能赢家:NVIDIA 横扫新一届全球最节能超级计算机榜单

  • 今年的 Green500 榜单有了显著的变化,前三名的超级计算机均为新上榜者,基于 NVIDIA Grace Hopper 打造的超算系统包揽了前三的位置
  • 在 Green500 中,采用 NVIDIA 技术的系统在前 10 名中占据了 7 席,排名前 50 中有 40 台都使用了 NVIDIA 技术,这足以证明加速计算是能效的基石,也是高性能计算最节能的方法。
  • 性能最强超级计算机 TOP500 榜单中,排名第 6 位的来自瑞士国家超级计算中心(CSCS)的 Alps 超算系统,是本届 TOP500 唯一新进前 10 的系统,其在 Green500 上排名第 14。Alps 系统基于 NVIDIA Grace Hopper 打造,它的一个优化的子系统(被称为 preAlps)在 Green500 榜单上名列第 5。此外,Alps 系统在 TOP500 榜单的高性能 Linpack 基准测试中创造了 270 PFLOPS 的纪录。充分体现了 NVIDIA Grace Hopper 能效与性能优势显著。
  • Grace Hopper 架构实现了 CPU 和 GPU 功能的紧密结合,不仅提高了性能,还大幅提高了能效,从而开创了处理技术的新时代。

  • ISC24 | 数据中心需要新的能效指标
  • 数据中心需要更加先进的、能够显示实际应用运行进度的 dashboard 来指导他们提高能效。
  • 如今使用最广泛的衡量标准——能源使用效率(PUE),PUE 在云计算兴起的时候给数据中心带来了很大的帮助,并将继续发挥作用。
  • 在如今的生成式 AI 时代,工作负载和运行这些负载的系统都发生了巨大变化,因此仅使用 PUE 是不够的。专家们也认为有必要制定新的能效指标。
  • 在生成式 AI 时代必须付出更大的努力来进一步提高能效。如果能够衡量目前最先进的应用所做有用功所消耗的能源,就可以将超级计算和数据中心的能效提升到一个新的水平。

小结

在 ISC 2024 可以看到,Arm CPU+GPU 性能与能效双管齐下,NVIDIA Grace Hopper 开启了 AI 超级计算新时代。未来随着 Grace Blackwell 投入市场,凭借 Blackwell 架构在 FP64 精度上比 Hopper 架构高出 30% 的性能表现,超算系统将有更多选择。

ISC 2024 以「重塑超算(Reinventing HPC)」为主题,在 ISC 2024 展区,超算与 AI 融合方案也随处可见,众多 HPC 系统均采用了如 NVIDIA Grace Hopper 等 CPU+GPU 的融合架构,HPC 与 AI 融合新趋势也越来越成为行业共识。