英伟达AI存储棋局（平台篇）——从Hopper到Vera Rubin：存储不再是配角|gpu|hopper|rubin|内存|英伟达ai

[平台级思考，存储级变革]

为突破AI推理时代的内存、通信与功耗等瓶颈，英伟达不再只聚焦于芯片本身，而是将GPU、CPU、网络、存储作为整体系统来设计。这一转变，正是从加速计算平台层面发起的。从Hopper到Blackwell再到Vera Rubin，英伟达完成从GPU单品供应商到AI系统集成商的战略蜕变，在重构存储架构的同时，重塑AI产业的价值分配逻辑与竞争格局。随着平台的迭代演进，存储从配角转变为核心支柱，定义AI加速平台性能上限、破解“内存墙”难题、支撑万亿级参数模型落地。

Hopper：聚焦芯片设计，存储向计算侧“靠拢”

Hopper以突破AI训练的算力瓶颈为核心，此时的存储优化本质是围绕算力的 “适配性升级”。AI发展的早期阶段，随着模型参数增长，为提高模型训练效率，英伟达推出采用Hopper架构的加速计算平台。H100是首款基于Hopper架构的GPU，主要聚焦算力提升，其算力FP16、FP32、FP64以及TF32性能均为前代A100的3倍，支持带宽为A100（HBM2E）的1.64倍。在Grace Hooper之前，H系列GPU主要通过PCIe接口连接CPU，存储与计算物理分离，数据无法直接共享，传输路径较长，搬运效率低。

Grace Hopper拉近存储与计算之间的距离。英伟达推出首个自研数据中心CPU——Grace CPU，并通过NVLink-C2C技术将Grace CPU与Hopper GPU融合至一个超级芯片中，大幅缩短存储与计算的距离，规避远距离传输带来的延迟损耗。此外，高带宽 NVLink-C2C上的扩展GPU内存（EGM）功能使得GPU能够高效地访问系统内存，并大幅扩展GPU可用的高效内存容量。

图1 NVLink连接的Grace Hopper超级芯片的内存访问

图片来源：NVIDIA

然而，受限于物理设计和架构约束，Grace Hopper在内存扩容上限、跨域带宽效率、多级缓存协同及大模型内存调度机制上仍存在瓶颈，难以原生适配超大模型高参数、超长上下文、超高并发的极致算力与内存需求。

Blackwell：机架级系统落地，存储从被动变主动

从Hopper到Blackwell，存储逐渐从被动变主动。Hopper初步实现了CPU与GPU的统一寻址和远距离内存访问，为存储池化提供了技术可能；而Blackwell则将这一能力真正工程化、规模化，在超级芯片的基础上，以“数据中心”为单位进行设计，推出GB200 NVL72机架系统。内存一致性延伸到所有处理器，允许CPU和GPU共享数据结构而无需显式复制。存储不再是等待调用的“仓库”，而是像一个主动参与协同工作的“共享工作台”，与计算单元紧密配合。

一方面，实现了从“芯片级”到“机架级”的架构革新。GB200 NVL72机架集成36个Grace CPU和72个Blackwell GPU，提供1.8TB/s的GPU间互连，配备了高达13.5TB的总HBM3e内存，GPU显存带宽最高支持576 TB/s，机架总互连带宽为 130TB/s。整个机架中的所有CPU和GPU内存，通过高带宽结构连接成一个巨大的统一内存池，提供了“开箱即用”的超大规模内存池系统。这大幅减少了传统模式下数据先在CPU内存中转、再复制到GPU显存的冗余拷贝过程，极大地提升了效率。

另一方面，存储从“等待调用”到“主动协同”。Blackwell引入软件定义和系统化支持，借助节点间内存交换服务（IMEX）和Compute Domains等软件层，将过去依赖硬件的直接访问和人工配置的权限控制、内存导入导出与安全隔离，变为可编程、可调度的自动化能力，实现跨节点访问显存的同时保证地址不乱，让共享权限和跨节点协同变得可编程、可调度且安全可靠。

Vera Rubin：集成五大机架，存储成为“支柱”之一

相较于Blackwell的单一机架，Vera Rubin升级为“五机架协同”，存储成为与GPU和CPU并驾齐驱的“支柱”。如果说Blackwell的GB200 NVL72机架是将计算与存储在单机架内紧密耦合，实现了存储从被动到主动的转变，那么Vera Rubin则是首次将存储以独立的机架级系统——BlueField-4 STX——纳入NVIDIA的AI超级计算机体系中，与GPU计算（Vera Rubin NVL72机架）、CPU编排（Vera CPU机架）、网络互连（Spectrum-6 SPX机架）和推理加速（Groq 3 LPX机架）共同构成了五大专用机架系统，构建了一个POD级别的异构协同超级计算机。存储的“支柱化”让AI系统的设计重心从“计算优先”转向“数据驱动”，使得计算资源专注于核心运算，而存储则全权负责数据的存储、共享、调度与加速。

Vera Rubin NVL72实现代际性能跨越，为下一代“AI工厂”的高效运转提供了坚实的底层支撑。相较于Blackwell，Vera Rubin NVL72不仅将NVFP4推理与训练算力分别大幅提升了5倍和3.5倍，更在存储方面实现性能飞跃。其LPDDR5X容量达到54TB（提升2.5倍），HBM4容量扩充至20.7TB（提升1.5倍），HBM4带宽飙升至1.6 PB/s，带来高达2.8倍的传输速率增长，配合翻倍至260 TB/s的Scale-Up带宽，极大地释放了数据吞吐潜力。

表1 Vera Rubin NVL72性能数据

数据来源：公开资料，CFM整理

BlueField-4 STX从底层重构存储层级，搭载专为KV缓存优化的CMX上下文内存存储平台。Blackwell 依赖HBM3e作为统一内存池的核心，解决了单机架内CPU与GPU 的内存一致性与数据共享问题，但仍受限于GPU显存容量与焊接式设计，难以应对万亿参数模型和超长上下文推理带来的海量KV缓存压力。Vera Rubin不仅将GPU内存升级为可插拔的HBM4，单卡容量提升至288GB，还通过独立的BlueField-4 STX存储机架，在GPU高带宽内存与传统存储之间新增CMX上下文内存存储平台。该平台将推理上下文数据从GPU显存中剥离，使得KV Cache不再被挤在昂贵的HBM和传统SSD之间，通过专属优化存储层级独立承载，解决了长期制约大模型发展的“显存墙”瓶颈。

[小结]

从Hopper到Blackwell再到Vera Rubin的迭代，英伟达通过内存池化、架构革新及存储层级重构，破解“内存墙”等瓶颈，重新定义AI时代的存储新定位，实现以存储为重要支柱的系统级重构。

[系列文章预告]

平台层面的变化，为存储架构的创新提供了土壤。在下一篇文章（机架篇）中，我们将深入Vera Rubin平台的内部，重点拆解AI原生存储机架：BlueField-4 STX，了解CMX平台具体如何运作？又对存储产生了哪些影响？敬请期待！