在硅谷的SAP中心,一场与众不同的盛会吸引了无数目光。Nvidia的掌门人,穿着皮夹克、年逾古稀的黄仁勋,站在人潮汹涌的现场,他开场的话语充满了戏谑:“我希望你们明白,这里不是音乐会。”

这句话揭开了GTC大会的序幕,这个会议与音乐会的狂热截然不同,它是一场开发者的盛宴,讨论的是算法、计算机架构和数学等科学主题。尽管如此,这位市值第三高企业的CEO,无疑在现场拥有着众多粉丝。

打开网易新闻 查看精彩图片

黄仁勋将音乐会与音乐会相提并论并不令人意外,这个场地确实非常有音乐会气氛

接下来让我们一起看看本次的GTC大会发布了哪些产品吧!

Blackwell:训练速度提升四倍,推理性能提高三十倍

Blackwell已经来了。Blackwell是一款由两个全尺寸GPU组成的GPU,以“单”个(双芯片)GPU的形式提供20 PetaFlops性能,与H100相比,其训练速度提升了四倍,更令人惊叹的是,每个GPU的推理吞吐量提高了三十倍。

得益于新的、更快的第五代NVLink,Blackwell能够扩展至576个GPU(H100扩展至256个)。包括的第二代Transformer引擎采用FP4精度,以及一个比以前快20倍的解压缩引擎,都为性能提升做出了贡献。

GB200和NVL72:面向AI的机架规模设计点

GB200 和 NVL72:AI 的机架级设计点

GB200 和 NVL72:AI 的机架级设计点

然而,大部分的市场推广力量并不是集中在Blackwell GPU上,而是集中在一个称为GB200的三芯片超级芯片上,它由两个Blackwell和一个Grace Arm CPU组成。

这种与Grace-Hopper芯片1-1比例不同的做法非常有意义,因为对于GH200来说,Grace的I/O和计算带宽足以管理两个Blackwell,即四个GPU。这应该有助于降低使用Grace平台的总拥有成本,也可能将Grace从Nvidia收入的一小部分转变为新安装的重要驱动力。

支持NVLink的GB200 NVL72机架包含72个Blackwell GPU和36个Grace CPU。Nvidia称,这个单独的机架就能训练一个27万亿参数模型。当然,大多数为此设计的AI工厂会使用多个机架来更快地训练如此庞大的模型。

Nvidia表示,其在AWS托管的Ceiba AI超级计算机现将由20,000个GB200 GPU组成,而不是最初宣布的16,000个H100。

打开网易新闻 查看精彩图片

Grace Blackwell 系统机架

每个机架放两个GB200的计算托盘,一共有18个托盘。然后两个NVSwitch放在一个交换托盘中。一切都通过每秒2升的水冷系统冷却,并且重量为3000磅。整个机架消耗120千瓦电力。

打开网易新闻 查看精彩图片

NVL72 组件

Nvidia令听众惊讶地宣称,GB200对于“传统”的LLMS,如GPT3,比H100快了八倍,这已经非常不错了,但对于推理1.8T参数的MoE,GB200比H100快了惊人的三十倍。

新的Transformer引擎

Transformer引擎这项技术允许每个张量在最优精度下进行计算,现在精度可达FP4。这意味着,如果一个竞争对手的GPU有相同数量的Flops,由于Transformer引擎的作用,Blackwell在推理处理上可能会快两倍。

Nvidia HPC和Hyperscale副总裁Ian Buck表示:“它的作用是跟踪每层每个张量以及整个神经网络在计算过程中和模型训练过程中的准确性动态范围,我们持续监控每层的范围并适应,以保持在数值精度的界限内,获得最佳性能。”

第二代Transformer引擎
打开网易新闻 查看精彩图片
第二代Transformer引擎

现在让我们看看这个怪兽是如何扩展的。Nvidia指出,今天的AI模型,如Meta Lama 2,95%是计算(和内存)受限的,只有5%是通信受限的。

但下一代AI模型,为之设计的Grace Blackwell,使用了“专家混合”,其中40%是计算受限的,60%是通信受限的。他们得出结论,像H100这样的芯片会慢18倍,因为GPU都在尝试彼此通信。

NVLink Gen 5:更快,带有3.6TFlops卸载速度

Nvidia正在将NVLink扩展到多机架规模,支持3.6TF的网络内计算,用于Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)技术。

SHARP通过将操作从CPU和GPU卸载到网络,并消除了在端点之间多次发送数据的需要,改善了MPI和机器学习集体操作的性能。

打开网易新闻 查看精彩图片

新的 NVLink

DGX和DGX SuperPOd

像往常一样,Nvidia也在为OEM和Nvidia DGX系统分别部署新芯片(B200和GB200)到HGX系统板。与NVL72不同,这两者都是空气冷却的,报告称推理性能提高了15倍,训练性能提高了3倍,与DGX H100相比。

新的SuperPOD是一种以NVIDIA DGX GB200系统构建的液冷机架规模架构,提供每机架11.5 exaflops的AI超级计算能力,精度为FP4,以及每机架240 terabytes的快速内存。

每个DGX GB200系统都配备了36个NVIDIA GB200 Superchip — 包括36个NVIDIA Grace CPU和72个NVIDIA Blackwell GPU — 通过第五代NVIDIA NVLink作为一个超级计算机连接。

硬件可用性

那么,所有这些好东西何时开始发货呢?Nvidia在这个细节上有点含糊,但Jensen展示了每个一线CSP和每个大小的Server OEM的logo。所以,看起来Blackwell将成为2024年的收入驱动力,B100尽快发货,而GB200将在今年晚些时候发货。

那么H100会怎样呢?嗯,如果你是一个企业,希望训练或微调一个模型,或在这些大约80B模型上运行推理,H100将仍然是最具成本效益的平台。但如果你是一个创建10万亿参数MoE模型的AI工厂,你将需要GB200,可能还需要NVL72机架。

NIM:预建的领域特定推理微服务

在最后一次季度财报电话会议中,Nvidia表示,公司的软件业务正在达到每年10亿美元的运营规模的临界质量。Nvidia的软件帮助客户快速启动AI(或HPC),现在又迈出了下一步。公司创建了一个称为“NIM”(Nvidia推理微服务)的概念,包括预建的Kubernetes容器、模型、API和推理引擎,如Triton,供开发人员构建领域特定副驾驶使用。NIM包含在Nvidia AI企业解决方案中,每GPU每年4500美元的无限制使用中。

举例来说,如果Nvidia将100万GPU(大约四分之一的预期GPU出货量)销售给公司或主权数据中心,并搭配AI企业解决方案,那将产生45亿美元的年收入,这是一个年度、黏性强、利润高的收入。当然,Nvidia也乐意为数以亿计的已安装基础GPU销售额外的软件许可。

因此,人们不禁要问——我们是否即将从“硬件拉动一些软件”模式过渡到新的范式,即“软件拉动硬件”?业务价值和上市时间由模型和优化软件驱动,NIM可能使部署推理能力更加容易。Nvidia说你可以在10分钟内部署一个模型。当然,这还配备了非常酷的GPU。

打开网易新闻 查看精彩图片

Nvidia NIM:推理微服务

这里有一个NIM的例子。Nvidia一直在将“Clara”作为医疗保健行业的全面起点进行市场营销。现在,有了NIM,医疗保健微服务已经预构建并且易于部署,具有标准的API和部署灵活性,无论是云端还是本地部署。这是Nvidia如何从一个巨大的工具箱转变为可消费和可部署的AI的方式。

打开网易新闻 查看精彩图片

使用 NIMS 的医疗保健微服务

NIM微服务为从NVIDIA、A121、Adept、Cohere、盖蒂图片、Shutterstock以及谷歌、拥抱者AI、Meta、Mistral AI和Stability AI的开放模型,很快还将支持微软模型的模型部署提供最快速和最高性能的生产AI容器。ServiceNow宣布它正在使用NIM来更快、更经济地开发和部署新的领域特定Copilots以及其他生成式AI应用。

Omniverse更新

Omniverse是Nvidia用于3D协作和数字孪生的平台,继续扩展到新市场并吸引新伙伴。Nvidia宣布了新的API,以简化将CAD和CAE软件集成到Omniverse中的过程。

“所有制造出来的东西都将有数字孪生,”NVIDIA的创始人兼CEO黄仁勋说。“Omniverse是构建和操作物理真实数字孪生的操作系统。Omniverse和生成式AI是数字化50000亿美元重工业市场的基础技术。”

Nvidia在GTC展会上展示的一个立即相关的用例是使用数据中心数字孪生来模拟从旧GPU技术更换到新的GB200平台的过程。为了尽快启用新数据中心,NVIDIA首先使用Omniverse连接的软件工具构建了其数字孪生。

工程师们使用Cadence Reality数字孪生平台,在全物理精度和照片级真实度的通用场景描述(OpenUSD)中可视化多个CAD数据集,该平台由NVIDIA Omniverse API提供支持。这项技术有助于简化新的和更新的数据中心的设计和建造过程,特别是在实施像GB200平台这样的尖端硬件时。

CuLitho:与Synopsys和TSMC一起进入生产阶段

半导体制造业一直在探索使用计算光刻作为加速吞吐量的方法,自从Nvidia一年前引入这一概念以来。现在,TSMC和Synopsys准备将这种光刻吞吐量40倍的改进引入TSMC的生产线,而且不仅仅是最先进的工艺节点。普遍认为这个AI平台将改变半导体制造业。

打开网易新闻 查看精彩图片

TSMC 和 Synopsys 已将 CiLitho 投入生产

结论

任何一直在想Nvidia可能会失去竞争优势的人都应该放心,这个领导者将继续领先。有了新发现的4倍训练优势,30倍推理优势和新的NIM推理部署模型,Nvidia看起来很适合应对所有竞争对手,并保持其超过80%的市场份额。

但毫无疑问,竞争已经从唯一一个可行的替代品(谷歌TPU)变成了至少8个,增加了AMD MI300、Intel Gaudi、Microsoft Maia、AWS芯片、Meta MTIA Cerebras和Groq,还有更多准备加入战场的选手。

随着这些玩家将他们的芯片推向市场,Nvidia的软件堆栈增加了他们必须克服的挑战。我们暂时还没有看到任何人在像NIMS和Omniverse以及企业AI这样的软件上即将接近Nvidia,尽管LLM模型和OpenAI Triton在整个领域的可用性可能在某种程度上削弱这一优势。