打开网易新闻 查看精彩图片

[平台级思考,存储级变革]

为突破AI推理时代的内存、通信与功耗等瓶颈,英伟达不再只聚焦于芯片本身,而是将GPU、CPU、网络、存储作为整体系统来设计。这一转变,正是从加速计算平台层面发起的。从Hopper到Blackwell再到Vera Rubin,英伟达完成从GPU单品供应商到AI系统集成商的战略蜕变,在重构存储架构的同时,重塑AI产业的价值分配逻辑与竞争格局。随着平台的迭代演进,存储从配角转变为核心支柱,定义AI加速平台性能上限、破解“内存墙”难题、支撑万亿级参数模型落地。

Hopper:聚焦芯片设计,存储向计算侧“靠拢”

Hopper以突破AI训练的算力瓶颈为核心,此时的存储优化本质是围绕算力的 “适配性升级”。AI发展的早期阶段,随着模型参数增长,为提高模型训练效率,英伟达推出采用Hopper架构的加速计算平台。H100是首款基于Hopper架构的GPU,主要聚焦算力提升,其算力FP16、FP32、FP64以及TF32性能均为前代A100的3倍,支持带宽为A100(HBM2E)的1.64倍。在Grace Hooper之前,H系列GPU主要通过PCIe接口连接CPU,存储与计算物理分离,数据无法直接共享,传输路径较长,搬运效率低。

Grace Hopper拉近存储与计算之间的距离。英伟达推出首个自研数据中心CPU——Grace CPU,并通过NVLink-C2C技术将Grace CPU与Hopper GPU融合至一个超级芯片中,大幅缩短存储与计算的距离,规避远距离传输带来的延迟损耗。此外,高带宽 NVLink-C2C上的扩展GPU内存(EGM)功能使得GPU能够高效地访问系统内存,并大幅扩展GPU可用的高效内存容量。

图1 NVLink连接的Grace Hopper超级芯片的内存访问

打开网易新闻 查看精彩图片

图片来源:NVIDIA

然而,受限于物理设计和架构约束,Grace Hopper在内存扩容上限、跨域带宽效率、多级缓存协同及大模型内存调度机制上仍存在瓶颈,难以原生适配超大模型高参数、超长上下文、超高并发的极致算力与内存需求。

Blackwell:机架级系统落地,存储从被动变主动

从Hopper到Blackwell,存储逐渐从被动变主动。Hopper初步实现了CPU与GPU的统一寻址和远距离内存访问,为存储池化提供了技术可能;而Blackwell则将这一能力真正工程化、规模化,在超级芯片的基础上,以“数据中心”为单位进行设计,推出GB200 NVL72机架系统。内存一致性延伸到所有处理器,允许CPU和GPU共享数据结构而无需显式复制。存储不再是等待调用的“仓库”,而是像一个主动参与协同工作的“共享工作台”,与计算单元紧密配合。

一方面,实现了从“芯片级”到“机架级”的架构革新。GB200 NVL72机架集成36个Grace CPU和72个Blackwell GPU,提供1.8TB/s的GPU间互连,配备了高达13.5TB的总HBM3e内存,GPU显存带宽最高支持576 TB/s,机架总互连带宽为 130TB/s。整个机架中的所有CPU和GPU内存,通过高带宽结构连接成一个巨大的统一内存池,提供了“开箱即用”的超大规模内存池系统。这大幅减少了传统模式下数据先在CPU内存中转、再复制到GPU显存的冗余拷贝过程,极大地提升了效率。

另一方面,存储从“等待调用”到“主动协同”。Blackwell引入软件定义和系统化支持,借助节点间内存交换服务(IMEX)和Compute Domains等软件层,将过去依赖硬件的直接访问和人工配置的权限控制、内存导入导出与安全隔离,变为可编程、可调度的自动化能力,实现跨节点访问显存的同时保证地址不乱,让共享权限和跨节点协同变得可编程、可调度且安全可靠。

Vera Rubin:集成五大机架,存储成为“支柱”之一

相较于Blackwell的单一机架,Vera Rubin升级为“五机架协同”,存储成为与GPU和CPU并驾齐驱的“支柱”。如果说Blackwell的GB200 NVL72机架是将计算与存储在单机架内紧密耦合,实现了存储从被动到主动的转变,那么Vera Rubin则是首次将存储以独立的机架级系统——BlueField-4 STX——纳入NVIDIA的AI超级计算机体系中,与GPU计算(Vera Rubin NVL72机架)、CPU编排(Vera CPU机架)、网络互连(Spectrum-6 SPX机架)和推理加速(Groq 3 LPX机架)共同构成了五大专用机架系统,构建了一个POD级别的异构协同超级计算机。存储的“支柱化”让AI系统的设计重心从“计算优先”转向“数据驱动”,使得计算资源专注于核心运算,而存储则全权负责数据的存储、共享、调度与加速。

Vera Rubin NVL72实现代际性能跨越,为下一代“AI工厂”的高效运转提供了坚实的底层支撑。相较于Blackwell,Vera Rubin NVL72不仅将NVFP4推理与训练算力分别大幅提升了5倍和3.5倍,更在存储方面实现性能飞跃。其LPDDR5X容量达到54TB(提升2.5倍),HBM4容量扩充至20.7TB(提升1.5倍),HBM4带宽飙升至1.6 PB/s,带来高达2.8倍的传输速率增长,配合翻倍至260 TB/s的Scale-Up带宽,极大地释放了数据吞吐潜力。

表1 Vera Rubin NVL72性能数据

打开网易新闻 查看精彩图片

数据来源:公开资料,CFM整理

BlueField-4 STX从底层重构存储层级,搭载专为KV缓存优化的CMX上下文内存存储平台。Blackwell 依赖HBM3e作为统一内存池的核心,解决了单机架内CPU与GPU 的内存一致性与数据共享问题,但仍受限于GPU显存容量与焊接式设计,难以应对万亿参数模型和超长上下文推理带来的海量KV缓存压力。Vera Rubin不仅将GPU内存升级为可插拔的HBM4,单卡容量提升至288GB,还通过独立的BlueField-4 STX存储机架,在GPU高带宽内存与传统存储之间新增CMX上下文内存存储平台。该平台将推理上下文数据从GPU显存中剥离,使得KV Cache不再被挤在昂贵的HBM和传统SSD之间,通过专属优化存储层级独立承载,解决了长期制约大模型发展的“显存墙”瓶颈。

[小结]

从Hopper到Blackwell再到Vera Rubin的迭代,英伟达通过内存池化、架构革新及存储层级重构,破解“内存墙”等瓶颈,重新定义AI时代的存储新定位,实现以存储为重要支柱的系统级重构。

[系列文章预告]

平台层面的变化,为存储架构的创新提供了土壤。在下一篇文章(机架篇)中,我们将深入Vera Rubin平台的内部,重点拆解AI原生存储机架:BlueField-4 STX,了解CMX平台具体如何运作?又对存储产生了哪些影响?敬请期待!