公众号记得加星标⭐️,第一时间看推送不会错过。
在2026年GTC大会上,英伟达发布了一系列突破性公告。英伟达的创新步伐丝毫没有放缓的迹象,今年他们推出了三款全新的系统:Groq LPX、Vera ETL256和STX。此外,英伟达还发布了Kyber机架架构系统的更新版本,CPO首次亮相,用于扩展网络,并发布了Rubin Ultra NVL576和Feynman NVL1152多机架系统。Feynman架构的早期信息也是本次大会的重点。在主题演讲中,Jensen对InferenceX的特别提及更是亮点之一。
在本文中,我们将解答英伟达尚未解答的诸多关键问题。具体来说,我们将详细介绍 LPX 机架和 LP30 芯片,并解释注意力机制和前馈网络解耦 (AFD) 的工作原理;深入探讨 NVL144、NVL576 和 NVL1152 背后的各种机架架构,阐明光模块的安装数量以及高密度 Vera ETL256 的设计理念。下一代 Kyber 机架也进行了一些重大更新,并隐藏了一些细节。
Groq
首先要介绍的是Groq LPU。人工智能基础设施领域近期最引人瞩目的事件之一,莫过于英伟达“收购”Groq。严格来说,英伟达支付了Groq 200亿美元,获得了其知识产权许可并聘用了大部分团队成员。这几乎等同于一次收购,尽管其结构在法律上并不完全符合收购的定义,从而简化或避免了监管审批的必要性。鉴于英伟达的市场份额,如果这笔交易按照全面收购的方式进行,并接受反垄断审查,那么它很可能无法完成。另一个好处是,它避免了漫长的交易完成流程。英伟达立即获得了Groq的知识产权和人才。正因如此,在交易宣布不到四个月后,英伟达就已经拥有了一个正在集成到Vera Rubin推理堆栈中的系统概念。
现在让我们回顾一下 LPU 架构,看看 Groq 的 LPU 如何与 Nvidia 的 GPU 互补。更多详情请参阅我们之前发布的 Groq 文章。该文章的基本论点仍然不变:独立的 Groq LPU 系统虽然无法大规模地提供token服务,但其token处理速度极快,因此可以获得较高的市场溢价。这正是 LPU 如何融入解耦解码系统的核心所在。
LPU芯片
Groq 首次公开发布的 LPU 架构详述于其 ISCA 2020 论文中。与连接多个通用内核的传统硬件架构不同,Groq 将架构重新组织成多个单用途单元组,这些单元组之间相互连接,并将这些组命名为“切片”。功能单元之间通过流式寄存器和暂存 SRAM 进行数据传递。Groq 选择使用单级暂存 SRAM 而非多级存储器层次结构,以确保硬件执行的确定性。
具体来说,LPU架构包含用于向量运算的VXM切片、用于加载/存储数据的MEM切片、用于张量形状操作的SXM切片以及用于执行矩阵乘法的MXM切片。在空间上,这些切片水平排列,允许数据水平流动。在切片内部,指令在各个单元之间垂直传递。从概念上讲,LPU类似于一个脉动阵列,它垂直传递指令,水平传递数据。
数据流和指令流设计需要细粒度的流水线来实现高性能。由于LPU架构使计算具有确定性,编译器可以积极地调度和重叠指令来隐藏延迟。LPU采用高带宽SRAM和积极的流水线技术是其实现低延迟的两大主要因素。
第一代 LPU 采用 Global Foundries 传统的 14nm 工艺设计,Marvell 负责芯片的物理设计。与 2020 年流片时的其他芯片相比,14nm 工艺已经成熟得多,当时主流的 AI 芯片平台大多采用台积电的 N7 平台。对于一款专注于验证 Groq 架构并将其以推理为中心的设计推向市场的早期产品而言,这样的选择是合理的。14nm 工艺成熟、相对成熟,适合于一款架构差异化比追求芯片性能更受重视的初始芯片。
其中一个卖点是,与严重依赖亚洲半导体供应链的竞争对手相比,该芯片可以完全在美国制造和封装:逻辑和封装在台湾,HBM 来自韩国。
此后,由于执行不力,Groq 的产品路线图停滞不前,LPU 2 至今仍未出货。这使得 Groq LPU 在与竞争对手的路线图相比时显得更加过时。曾经虽有一定意义但仍可克服的制程劣势(相对于 7nm 时代的同类产品),如今已演变为巨大的差距,所有领先的加速器平台都将在 2026 年转向 3nm 级工艺。
Groq LPU 2 的后续产品是专为三星晶圆代工的 SF4X 节点设计的,具体来说,是在三星位于奥斯汀的晶圆厂生产,这使得三星能够进一步宣传 Groq 是在美国本土制造的。三星还将为后端设计提供支持。选择三星的原因在于其提供的优惠条款和投资,当时三星晶圆代工正苦于为其先进节点寻找客户,并且错失了一位人工智能逻辑芯片客户。不出所料,三星是 Groq 在 2024 年 8 月和 2025 年 9 月(即英伟达“收购”之前)D 轮融资的关键投资者。
然而,由于设计问题,Groq LPU 2 从未量产。芯片上的 C2C SerDes 无法达到宣传的 112G 速度,导致设计故障,我们早在加速器模型中就对此进行了详细描述。英伟达将推出第三代 Groq LPU。
SRAM 和存储器层次结构
我们之前已经讨论过SRAM在内存层次结构中的作用,简单来说,SRAM速度非常快(低延迟、高带宽),但代价是内存密度低,因此成本高。
像Groq的LPU这样的SRAM设备可以实现极快的首token时间和每用户每秒token数,但会牺牲总吞吐量,因为它们有限的SRAM容量很快就会被权重填满,几乎没有剩余空间用于键值缓存(KVcache),而键值缓存会随着批处理用户数量的增加而增长。正如我们所展示的,GPU在吞吐量和成本方面都更胜一筹。这就是为什么Nvidia决定将这两种架构结合起来,以兼顾两者的优势:在像LPU这样低延迟、SRAM密集型的芯片上加速解码过程中对延迟更敏感、内存占用较小的部分,而内存密集型任务则在拥有大量高速(但并非SRAM速度)内存容量的GPU上执行。
这就引出了Groq 3 LPU或LP30,其中跳过了LPU Gen 2。这款芯片的设计与Nvidia无关。影响v2的SerDes问题似乎已经修复。付费墙后,我们将揭晓SerDes IP供应商,这或许会让你感到意外。Nvidia还发布了LP35,它是LP30的小幅升级版,将继续采用SF4架构,需要重新流片。它将采用NVFP4数字格式,但考虑到Nvidia优先考虑的是产品上市时间,我们预计不会有其他重大设计变更。
LPU 3 的芯片布局接近光罩尺寸,与 LPU 1 非常相似。500MB 的片上 SRAM 占据了相当大的面积,而 MatMul 核心仅占很小一部分,可提供 1.2 PFLOPS 的 FP8 计算能力——与 Nvidia GPU 相比,计算能力微乎其微。相比之下,LPU 1 拥有 230MB 的 SRAM 和 750 TFLOPS 的 INT8 计算能力,性能提升主要得益于制程节点从 GF16 升级到 SF4。由于采用单芯片设计,因此无需先进的封装技术。
使用SF4的优势之一在于它不像台积电的N3那样受到产能限制。N3限制了加速器的产量,这也是业界计算能力持续受限的关键原因之一。此外,SF4也不使用同样受限的HBM 。这使得英伟达能够在不占用或消耗其宝贵的台积电配额或HBM配额的情况下,大幅提升LPU的产量,从而获得其他厂商无法企及的真正增量收入和产能。
自英伟达接手以来,下一代LP40将采用台积电N3P工艺制造,并使用CoWoS-R协议。英伟达还将贡献更多自有IP,例如支持NVLink协议而非Groq的C2C协议。这将是首款与Feynman平台深度协同设计的LPU。Groq最初计划的第四代LPU也由台积电和Alchip作为后端设计合作伙伴。由于英伟达能够独立完成后端设计,Alchip的参与已不再必要。计划中的一项技术创新是混合键合DRAM,用于扩展片上内存,与SRAM相比,延迟和带宽仅略有下降,但性能远超DRAM。SK海力士被选定为3D堆叠DRAM的供应商。
GPU 和 LPU 集成:注意力 FFN 分解 (AFD)
现在我们了解了LPU的优势所在,就能理解它们如何融入推理架构。NVIDIA引入LPU旨在提升高交互场景下的性能。在这些场景中,LPU可以利用其低延迟特性来缩短解码阶段的延迟。LPU缩短解码阶段延迟的一种方法是应用注意力前馈神经网络解聚(AFD)技术,该技术已在MegaScale-Infer和Step-3中提出。
正如我们在InferenceX 文章中解释的那样,LLM 推理包含两个阶段:预填充和解码。预填充处理完整的输入上下文,计算量巨大,因此适合使用 GPU。另一方面,解码预测新的词元,内存占用较高。解码对延迟非常敏感,因为模型需要逐个预测新的词元,而 LPU 的高 SRAM 带宽和低延迟能力可以加速这一迭代过程。
注意力机制和前馈神经网络(FFN)是模型中操作的子集。在模型的前向传播过程中,注意力机制的输出会输入到token路由器,token路由器会将每个token分配给 k 个专家,每个专家就是一个 FFN。注意力机制和 FFN 的性能特性截然不同。在解码阶段,由于受限于键值缓存的加载,注意力机制的 GPU 利用率几乎不会随着批处理大小的增加而提高。相比之下,FFN 的 GPU 利用率随批处理大小的增加而显著提高。
在过去的 6 个月里,我们一直与一些硬件供应商和内存公司合作,致力于将我们的推理模拟器应用于此。
随着最先进的混合专家(MoE)模型变得越来越稀疏,token可以从更大的专家池中选择专家。因此,每个专家获得的token数量减少,导致利用率降低。这促使人们寻求注意力机制和前馈神经网络(FFN)的解耦。如果GPU仅执行注意力操作,其HBM容量可以完全分配给键值缓存(KV缓存),从而增加其可处理的token总数,进而增加每个专家平均处理的token数量。
对比这两种操作,我们发现注意力机制由于动态键值缓存加载模式而具有状态性,而前馈神经网络(FFN)由于其计算仅依赖于词元输入而具有无状态性。因此,我们将注意力机制和 FFN 的计算分离。我们将注意力机制的计算映射到 GPU,GPU 能够很好地处理动态工作负载。对于 FFN,我们将其映射到 LPU,因为 LPU 架构本质上是确定性的,并且更适合静态计算工作负载。
使用 AFD 时,从 GPU 到 LPU 的token路由可能会成为瓶颈,尤其是在严格的延迟约束下。token路由流程包含两个操作:分发和合并。在分发步骤中,我们使用 All-to-All 集体操作将每个token路由到其前 k 个专家。专家完成计算后,我们执行合并步骤,使用反向 All-to-All 集体操作将输出发送回源位置,从而继续下一层的计算。
为了隐藏分发和合并过程中的通信延迟,我们采用了乒乓流水线并行机制。除了像标准流水线并行机制那样将批次拆分成微批次并进行计算流水线化之外,分发到 LPU 的token会被合并回源 GPU,从而在 GPU 和 LPU 之间进行乒乓传输。
推测性解码
LPU 改善解码阶段延迟的另一种方法是加速推测性解码设置,其中我们将草稿模型或多token预测 (MTP) 层部署到 LPU 上。
对于包含 N 个上下文标记的解码步骤,在前向传递过程中添加 k 个额外的标记(即预填充 k 个新标记)在 k << N 时只会略微增加延迟。利用这一特性,推测性解码使用小型草稿模型或 MTP 层来预测 k 个新标记,从而节省时间,因为小型模型每次解码步骤的延迟更低。为了验证这些草稿标记,主模型只需要一次预填充 k 个新标记,其延迟成本大约相当于一次解码步骤。推测性解码通常会使每次解码步骤的输出标记数量增加 1.5 到 2 个,具体数值取决于草稿模型/MTP 的准确率。凭借其低延迟能力,LPU 可以进一步提高延迟节省并提升吞吐量。
对于 LPU 而言,部署草稿模型或 MTP 层与应用 AFD 截然不同。FFN 是无状态的,而草稿模型和 MTP 层需要动态 KV 缓存加载。每个 FFN 大约占用数百兆字节,而草稿模型和 MTP 层则占用数十 GB。为了支持这种内存使用,LPU 可以通过 LPX 计算托架上的每个 Fabric Expansion Logic FPGA 访问高达 256 GB 的 DDR5 内存。
LPX机架系统
我们来看看LPX机架系统,它有一些有趣的细节。英伟达展示了一款LPX机架,配备32个1U LPU计算托架和2台Spectrum-X交换机。英伟达在GTC大会上展示的这款32托架1U版本与Groq被收购前的原始服务器设计非常接近。我们认为,这并非第三季度将要出货的服务器配置,英伟达会进行一些改动。接下来,我们将详细介绍我们目前了解到的实际量产版本信息。
LPX 计算托盘
每个 LPX 计算托架或节点包含 16 个 LPU,配备 2 个 Altera FPGA、1 个 Intel Granite Rapids 主机 CPU 和 1 个 BlueField-4 前端模块。与其他 Nvidia 系统一样,超大规模数据中心客户可以并且将会使用他们自己选择的前端网卡,而无需为 Nvidia 的 BlueField 付费。
LPU模块采用背靠背的方式安装在PCB上,即PCB上表面安装8个LP30模块,下表面安装另外8个LP30模块。LPU的所有输出连接均通过PCB走线实现,由于节点间连接采用密集的全网状布线,因此需要高规格的PCB来支持布线。背靠背安装方式旨在减少PCB在X轴和Y轴方向上的走线长度。
该系统的一个有趣之处在于FPGA扮演的重要角色。Nvidia将FPGA称为“Fabric Expansion Logic”(架构扩展逻辑),它具有多种用途。首先,它们充当网卡,将LPU的C2C协议转换为以太网,从而连接到基于Spectrum-X的以太网横向扩展架构。正是通过这个横向扩展架构,LPU才能连接到解码系统中的GPU。
其次,LPU 也需要经过 FPGA 才能到达主机 CPU,FPGA 将 C2C 转换为 PCIe 传输到 CPU。
第三,FPGA 连接到背板,以便与节点中的其他 FPGA 通信。我们认为这有助于管理所有 LPU 的控制流和时序。此外,每个 FPGA 还提供高达 256GB 的额外系统 DRAM。如果用户希望整个解码过程都由 LPX 处理,则可以使用这部分内存作为 KVCache。
前面板上有 8 个 OSFP 插槽,用于跨机架 C2C 连接;另外还有 2 个插槽(可能是 QSFP-DD)连接到 Spectrum 交换机,这些交换机用于连接 LPU 和 GPU,构成解耦解码系统。我们将在介绍网络时详细介绍这些插槽。
LPU网络
LPU 网络可分为纵向扩展的“C2C”网络和横向扩展网络,后者通过 Spectrum-X 与 Nvidia GPU 交互。首先,我们来讨论纵向扩展网络,它可以分为三个部分:节点内、节点间/机架内和机架间。对于机架内的 C2C 网络,Nvidia 宣布每个机架的总纵向扩展带宽为 640TB/s,这是由 256 个 LPU x 90 条通道 x 112Gbps/8 x 2 个方向 = 645TB/s 计算得出的。需要注意的是,Nvidia 使用的是 112Gbps 的总线速,而不是 100Gbps 的有效数据速率。
一、托盘内拓扑结构
在每个托盘或节点内,所有 16 个 LPU 都以全网状结构相互连接。每个 LPU 模块通过 4x100G 的 C2C 带宽与节点内的其他 15 个 LPU 连接。需要注意的是,这里的“C2C”并非 NVLink,而是 Groq 自有的可扩展互连架构。所有连接均通过 PCB 走线实现,因此需要极高规格的 PCB 来支持如此高的布线密度。这就是采用背靠背布局的原因:它减少了所有 LPU 之间的 X 和 Y 方向距离,并将布线集中在 Z 方向上。
LPU 还通过 1x100G 接口连接到一个 FPGA,每个 FPGA 与 8 个 LPU 连接。这两个 FPGA 各自通过 8 个 PCIe Gen 5 接口连接到 CPU。由于 LPU 没有 PCIe PHY 直接与 CPU 连接,因此需要通过 FPGA 才能与 CPU 通信。
二、节点间/机架内
每个 LPU 都与服务器中其他 15 个节点上的每个 LPU 相连。每个节点间链路均为 2x100G,因此每个 LPU 共有 15x2x100G 的节点间链路。这些节点间链路通过铜缆背板连接。此外,每个 FPGA 也通过 25G 或 50G 的链路与其他节点上的 FPGA 相连,共 15x25G/50G。这些链路也通过背板连接。这意味着每个节点有 16 x 15 x 2 条用于节点间 C2C 通信的通道,以及 2 x 15 条用于节点间 FPGA 通信的通道,总共 510 条通道或 1020 个差分对(用于接收和发送)。因此,背板共有 16 x 1020/2 = 8160 个差分对——除以 2 是因为每个设备的发送通道对应一个设备的接收通道。
三、机架间
最后,还有机架间的C2C连接。每个LPU都有4条100G通道连接到OSFP笼,从而连接4个机架上的LPU。这种机架间扩展可以使用多种配置。一种方案是每个LPU的4条100G通道连接到一个OSFP笼,每个OSFP笼从2个LPU分流出800G的C2C数据。然而,为了获得更大的扇出能力,更优的配置似乎是每个LPU的100G通道连接到4个独立的OSFP笼,每个OSFP笼从8个LPU分流出800G的C2C数据。机架之间的网络连接方式似乎是菊花链式配置,每个Node0节点连接到另外2个Node0节点。所有这些都可以在100G AEC的覆盖范围内实现,如有必要,也可以使用光模块。
英伟达CPO路线图
NVIDIA 在 2026 年 GTC 主题演讲中公布了其 CPO 路线图,随后 Jensen 在第二天举行的财务分析师问答会议上对此进行了补充说明。尽管许多人曾寄希望于 CPO 能用于 Rubin Ultra Kyber 机架内的扩展,但 NVIDIA 的重点却在于利用 CPO 构建更大规模的全球计算系统。
在 Rubin 系列中,Nvidia 将提供采用 Oberon NVL72 外形尺寸的 Rubin GPU,并配备全铜缆纵向扩展网络。正如我们预期的那样,Rubin Ultra 仅提供 Oberon 和 Kyber Rack 两种外形尺寸的铜缆纵向扩展选项。此外,Rubin Ultra 还将推出更大尺寸的系统,该系统由 8 个 Oberon Rack(每个 Rack 包含 72 个 Rubin Ultra GPU)组成,称为 NVL576。该系统将采用 CPO 纵向扩展技术构建,机架之间通过两层全对全网络连接,但机架内部的纵向扩展仍将基于铜缆。
当我们达到费曼世代时,CPO 的应用将通过另一个大型世界级机架——NVL1152 来实现,该机架由 8 个 Kyber 机架组合而成。尽管英伟达技术博客在其机架配置路线图中指出,“NVIDIA Kyber 将扩展为一个庞大的全 NVL1152 超级计算机,并使用类似的直接光互连实现机架间的扩展”,但黄仁勋在一次金融分析师问答环节中表示,费曼世代的 NVL1152 将“完全采用 CPO”。目前对于机架内部扩展是否仍将使用铜线,还是会用 CPO 取代铜线,仍存在一些争议。
英伟达的策略是尽可能使用铜缆,在必须使用光纤时才采用光纤。费曼世代的NVL1152架构也将遵循这一原则。显然,NVL1152将采用CPO(铜缆光缆)连接机架,但目前GPU到NVLink交换机的连接仍采用铜缆POR(光纤上电)。英伟达无法将双向224Gbit/s的电通道速度再次翻倍至单向448Gbit/s,这意味着带宽并没有那么惊人。
虽然 448G 高速 SerDes 与使用芯片到芯片的连接连接到光引擎相比,在海岸线、传输距离和功耗方面面临巨大挑战,但对于 Feynman 而言,制造方面的挑战、成本和可靠性要求必须使用铜线连接到交换机。
尽管如此,NVL1152 SKU 的上市还需要数年时间,而且产品路线图很可能会发生变化。目前,我们的基本方案是每个机架内部使用铜缆,机架之间使用 CPO(铜缆传输协议),但这很容易改变。
目前我们对英伟达CPO路线图的最佳估计如下:
Rubin:
NVL72 – Oberon 全铜增压
Rubin Ultra:
NVL72 – Oberon 全铜增压
NVL144 – Kyber机架全铜升级
NVL288 – Kyber机架全铜扩展,两个机架之间用铜线连接。
NVL576 – 8 个 Oberon 机架,机架内铜缆扩展,机架间交换机采用 CPO,构成两层全对全拓扑结构。此方案容量较小,仅用于测试目的。
Feynman:
NVL72 – Oberon机架 – 全铜
NVL144 – Kyber Rack – 全铜
NVL1152 – 8xKyber 机架 – 机架内铜缆及机架间交换机上的 CPO。
Oberon 和 Kyber 更新,引入更大的世界规模,更多网络更新
英伟达发布了备受期待的 Kyber 机架式服务器的最新进展,这是继 Oberon 之后,英伟达产品线中的最新成员。Oberon 此前已在 GTC 2025 大会上以原型机的形式亮相。作为原型机,Kyber 机架式服务器架构一直在不断演进,我们注意到了一些变化。首先,每个计算刀片的密度都得到了提升,每个刀片配备 4 个 Rubin Ultra GPU 和 2 个 Vera CPU。总共有 2 个机架单元,每个单元包含 18 个计算刀片,即 36 个计算刀片,每个机架可容纳 144 个 GPU。最初的 Kyber 设计是每个计算刀片配备 2 个 GPU 和 2 个 Vera CPU,总共有 4 个机架单元,每个单元包含 18 个计算刀片。
以下细节基于 Rubin Kyber 原型,但 Rubin Ultra 将重新设计。
每个交换机刀片的高度是 GTC 2025 原型机的两倍,每个刀片配备 6 个 NVLink 7 交换机,每个机架配备 12 个刀片,因此每个 Kyber 机架总共包含 72 个 NVLink 7 交换机。GPU 通过 2 个 PCB 中板或每个机箱 1 个中板与所有刀片直接连接。
对于 Rubin Ultra NVL144 Kyber,我们已多次告知客户,不会使用 CPO 进行扩展,尽管其他分析师曾传言 Kyber 将引入扩展 CPO。不过,NVLink 光模块即将推出,并将逐步部署。扩展 CPO 将首先用于 Rubin Ultra NVL 576 系统,连接 8 个 Oberon 机架,形成一个双层全连接网络。机架内部的扩展网络连接仍将使用铜质背板。目前,这仅用于小批量/测试用途。
回到 Kyber Rack,每个 Rubin Ultra 逻辑 GPU 提供 14.4Tbit/s 的单向双向扩展带宽,每个 GPU 使用一个 80DP 连接器(使用 72 个 DP x 200Gbit/s 双向通道 = 14.4Tbit/s)连接到中板。将所有 144 个 GPU 连接到一个全对全网络中,需要 72 个 NVLink 7.0 交换芯片,每个芯片的总单向双向带宽为 28.8Tbit/s。
在下图所示的Kyber Switch Blade中,我们可以看到它由两块独立的PCB板组成,每块PCB板上各搭载3个开关。这款Switch Blade应该配备6个152DP连接器,每块中板各3个连接器。图中所示的是原型刀片,使用了密度较低的连接器,因此连接器数量为12个,而不是量产版预期的6个。
每个 28.8T NVLink 交换机拥有 144 条 200G 通道(双向同步传输),这意味着每个交换机的每个连接器都有 24 条 200G 通道。由于距离过长,无法使用 PCB 走线,因此使用铜质飞线将每个交换机连接到中板。这也是交换机距离中板较远的原因,以便为飞线布线留出空间。
每个 NVLink 交换芯片通过飞线连接到交换刀片边缘的连接器(使用 144 个 DP 端口 x 200 Gbit/s 双向通道 = 28.8Tbit/s),这些连接器再插入中板。如果 NPC 无法正常工作,NVIDIA 正在考虑使用共封装铜来进一步降低损耗。据我们所知,NVIDIA 正在要求供应链采用全共封装铜。
Rubin Ultra NVL288
尽管英伟达在 GTC 2026 大会上并未正式讨论 NVL288 方案,但供应链内部已对此进行了探讨。该方案将采用两个相邻的 NVL144 Kyber 机架,并通过机架间铜质背板连接两个机架。一种可能性是将所有 288 个 GPU 完全互连,但这需要比目前 NVLink 7 交换机更高基数的交换机,因为后者最大仅提供 144 个 200G 端口。
如果部署 Rubin Ultra NVL288,每个 Rubin Ultra GPU 的单向带宽将达到 14.4Tbit/s,连接 NVLink 7 交换机需要 144 个 DP 线缆。每个 GPU 72 个 DP,共 288 个 GPU,这意味着连接这个更大的网络空间总共需要 20,736 个额外的 DP。这需要大量的线缆,因此这是线缆容量的上限。
28.8T NVLink交换机的基数限制了每个交换机可连接的GPU数量,同时仍需提供跨机架连接。要么必须使用更高基数的交换机,要么该架构必须存在一定程度的超额分配,并可能采用类似蜻蜓拓扑的网络结构。此外,这还可以减少DP接口所需的铜缆数量。
目前供应链中的所有证据都表明 NVSwitch 7 的带宽与 NVSwitch 6 相同,但坦白说,这似乎有点不合逻辑。我们认为 NVSwitch 7 的带宽和基数实际上是 NVSwitch 6 的两倍,因此可以实现全网互联,而且从系统架构的角度来看,这才是最合理的。
Rubin Ultra NVL576
为了将规模扩展到 144 个 GPU 以上并跨越多个机架,我们需要采用光学器件,因为我们已接近铜缆所能承载的最大计算密度。Rubin Ultra NVL576 目前已列入产品路线图,用于部署 8 个机架的低密度 Oberon 处理器。
机架间连接需要使用光学器件,但严格来说,目前尚不确定是采用可插拔光学器件还是CPO(耦合光模块),不过CPO的可能性似乎更大。目前Blackwell NVL576原型机“Polyphe”使用的是可插拔光学器件。
我们之前展示过基于GB200的NVL576概念,该概念采用可插拔光模块互连NVLink交换机的第二层。可插拔模块的使用导致物料清单成本大幅增加,使得该系统从总拥有成本(TCO)的角度来看,对于全交换网络而言难以实现。然而,Rubin Ultra NVL576很可能会在Feynman NVL 1152发布之前进行测试,届时我们将看到实际的量产规模提升。
Feynman
虽然我们对 Feynman 了解不多,但主题演讲的预览足以告诉我们 Feynman 将会令人兴奋,它将在一个平台上推进三项重大技术创新:混合键合/SoIC 、A16、CPO和定制 HBM 。
虽然 Feynman 已将采用 CPO 列入计划,但问题在于采用程度如何?机架内互连将基于铜缆还是光纤?我们将在付费墙后展示可能的配置。Vera ETL256
随着人工智能工作负载需要处理更多数据、进行预处理和编排,而GPU计算能力已无法满足这些需求,CPU需求正在不断增长。强化学习进一步推高了CPU需求,因为CPU需要并行运行模拟、执行代码和验证输出。由于GPU的扩展速度比CPU快,因此需要更大的CPU集群才能使其充分利用,这使得CPU日益成为瓶颈。
Vera独立机架直接解决了这个问题,它通过将256个CPU集成到单个机架中实现了前所未有的密度——这一壮举需要液冷散热。其基本原理与NVL机架的设计理念一脉相承:将计算资源紧密排列,使铜缆互连能够覆盖机架内的所有组件,从而无需在主干板上使用光收发器。铜缆带来的成本节约完全可以抵消额外的散热开销。
每个 Vera ETL 机架包含 32 个计算托架,上下各 16 个,围绕中间的四个 1U MGX ETL 交换机托架(基于 Spectrum-6)对称排列。这种对称布局是经过精心设计的:它最大限度地减少了计算托架和主干线缆之间的长度差异,确保所有连接都在铜缆的有效范围内。每个交换机托架的后置端口连接到主干铜缆,用于机架内部通信;而 32 个前置 OSFP 插槽则为 POD 的其余部分提供光纤连接。
机架内部采用 Spectrum-X 多平面拓扑结构,将 200 Gb/s 通道分配到四个交换机上,实现完全的全连接,同时保持单一网络层级。每个计算托架容纳 8 个 Vera CPU,因此每个机架共可容纳 256 个 CPU,所有 CPU 均通过以太网连接到单一的扁平网络。
CMX 和 STX
我们在上一篇关于 Rubin 的文章和内存模型中详细探讨了英伟达的 CMX(或称 ICMS)平台。英伟达还推出了 STX 参考存储机架架构。
CMX
CMX是 NVIDIA 的上下文内存存储平台。CMX 旨在解决现代推理基础设施中日益严重的瓶颈问题:支持长上下文和智能体工作负载所需的键值缓存快速扩展。
键值缓存 (KV 缓存) 的容量随输入序列长度和用户数量线性增长,是影响预填充性能(首次获取token所需时间)的主要权衡因素。大规模应用时,设备端 HBM 的容量不足。主机 DRAM 可以通过额外的缓存层扩展 HBM 的容量,但也会受到每个节点总容量、内存带宽和网络带宽的限制。这时就需要使用 NVMe 存储来分担 KV 缓存的负载。
NVIDIA 在一月份的 CES 展会上推出了推理内存层级结构中的“全新”中间存储层级“G3.5”。G3.5 NVMe 位于 G3 DRAM 层级和 G4 共享存储层级(同样是 NVMe、SATA/SAS SSD 或 HDD)之间。该层级之前被称为ICMS(推理上下文内存存储),现在更名为CMX 平台,实际上只是通过 Bluefield 网卡连接到计算服务器的存储服务器的另一种品牌重塑。与 NVMe 架构的唯一区别在于网卡从 Connect-X 网卡替换为 Bluefield 网卡。
STX
为了扩展 CMX 的应用范围,NVIDIA 还推出了 STX。STX 是一款参考机架架构,采用 NVIDIA 基于 BF-4 的存储解决方案,旨在与 VR 计算机架相辅相成。该参考架构明确规定了特定集群所需的硬盘数量、Vera CPU、BF-4 DPU、CX-9 网卡和 Spectrum-X 交换机的数量。
与VR NVL72中的BF-4(由一颗Grace CPU和一个CX-9网卡组成)不同,STX参考设计中的BF-4包含一颗Vera CPU、两颗CX-9网卡和两个SOCAMM模块。每个STX机箱包含两个BF-4单元,共计两颗Vera CPU、四颗CX-9网卡和四个SOCAMM模块。整个STX机架共包含16个机箱,这意味着总共有32颗Vera CPU、64颗CX-9网卡和64个SOCAMM模块。
STX 发布会上,英伟达一如既往地展示了实力,他们列出了所有支持 STX 的主要存储供应商,包括 AIC、Cloudian、DDN、戴尔科技、Everpure、日立 Vantara、HPE、IBM、MinIO、NetApp、Nutanix、Supermicro、广达云技术 (QCT)、VAST Data 和 WEKA。
BlueField-4、CMX 和 STX 共同代表了 NVIDIA 在存储层集群设计标准化方面所做的更广泛的努力。NVIDIA 已在计算和网络层占据主导地位,并正积极逐步向存储、软件和基础设施运维层拓展。
https://newsletter.semianalysis.com/p/nvidia-the-inference-kingdom-expands_gl=1*mkql0u*_ga*MjEyMzgzNDg4LjE3NTkyNDg4ODA.*_ga_FKWNM9FBZ3*czE3NzQzODc5MjgkbzU1JGcwJHQxNzc0Mzg3OTI4JGo2MCRsMCRoMTMyODk4ODQzNg..
(来源:编译自semianalysis)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4356内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴