COMPUTEX-NVIDIA公司今天宣布推出一款新型大内存AI超级计算机--NVIDIA DGX™超级计算机,该计算机由NVIDIA® GH200 Grace Hopper超级芯片和NVIDIA NVLink®交换机系统提供动力,旨在为生成型AI语言应用、推荐系统和数据分析工作负载开发巨型的下一代模型。

NVIDIA DGX GH200的巨大共享内存空间利用NVLink互连技术与NVLink交换系统,将256个GH200超级芯片结合在一起,使它们能够作为单个GPU来执行。这提供了1exaflops的性能和144T的共享内存,比2020年推出的上一代NVIDIA DGX A100的内存多出近500倍。

打开网易新闻 查看精彩图片

"生成性人工智能、大型语言模型和推荐系统是现代经济的数字引擎,"英伟达创始人兼首席执行官黄仁勋说。"DGX GH200 AI超级计算机整合了英伟达最先进的加速计算和网络技术,以拓展AI的前沿领域。"

英伟达NVLink技术扩大了AI的规模
GH200超级芯片使用NVIDIA NVLink-C2C芯片互连,将基于Arm的NVIDIA Grace™ CPU与NVIDIA H100 Tensor Core GPU结合在同一封装中,从而消除了对传统CPU至GPU的连接的需求。与最新的PCIe技术相比,这将GPU和CPU之间的带宽提高了7倍,将互连功耗削减了5倍以上,并为DGX GH200超级计算机提供了一个600GB的Hopper架构GPU构建块。

打开网易新闻 查看精彩图片

DGX GH200是第一台将Grace Hopper超级芯片与NVIDIA NVLink交换系统配对使用的超级计算机,NVLink交换系统是一种新的互连方式,能够使DGX GH200系统中的所有GPU作为一个整体协同工作。上一代系统只提供八个GPU与NVLink结合为一个GPU,而不影响性能。

DGX GH200架构提供的NVLink带宽是上一代的48倍,以单颗GPU的简单编程提供了大规模AI超级计算机的能力。

为人工智能先驱者提供的新研究工具
谷歌云、Meta和微软是首批有望获得DGX GH200的用户,以探索其在生成型AI工作负载方面的能力。英伟达还打算将DGX GH200的设计作为蓝本提供给云服务提供商和其他超大规模企业,以便他们能够为自己的基础设施进一步定制。

"谷歌云计算副总裁Mark Lohmeyer表示:"构建先进的生成模型需要创新的AI基础设施方法。"新的NVLink规模和Grace Hopper超级芯片的共享内存解决了大规模人工智能的关键瓶颈问题,我们期待着为谷歌云和我们的生成性人工智能计划探索其能力。"

"随着人工智能模型越来越大,它们需要强大的基础设施,可以扩展以满足日益增长的需求,"Meta公司基础设施、人工智能系统和加速平台副总裁Alexis Bj?rlin说。"NVIDIA的Grace Hopper设计看起来为研究人员提供了探索新方法的能力,以解决他们最大的挑战。"

"训练大型人工智能模型在传统上是一项资源和时间密集型任务,"微软Azure基础设施公司副总裁Girish Bablani说。"DGX GH200处理TB级数据集的潜力将使开发人员能够以更大的规模和加速的速度进行先进的研究。"

新的NVIDIA Helios超级计算机将推动研究和开发
英伟达正在建造自己的基于DGX GH200的人工智能超级计算机,为其研究人员和开发团队的工作提供动力。

这台超级计算机被命名为NVIDIA Helios,它将拥有四个DGX GH200系统。每个系统都将与英伟达Quantum-2 InfiniBand网络互连,为训练大型人工智能模型提高数据吞吐量。Helios将包括1,024个Grace Hopper超级芯片,预计将于今年年底上线。

完全集成,专为巨型模型而生
DGX GH200超级计算机包括英伟达软件,为最大的人工智能和数据分析工作负载提供了一个交钥匙的全栈解决方案。NVIDIA Base Command™软件提供了AI工作流程管理、企业级集群管理、加速计算、存储和网络基础设施的库,以及为运行AI工作负载而优化的系统软件。

此外,还包括NVIDIA AI Enterprise,这是NVIDIA AI平台的软件层。它提供了100多个框架、预训练模型和开发工具,以简化生产型AI的开发和部署,包括生成型AI、计算机视觉、语音AI等。

供应情况
NVIDIA DGX GH200超级计算机预计将于今年年底上市。