Nvidia把AI工厂做成"开箱即用"：4节点到128集群全包

我是一个粉刷匠2

2026-05-08 06:44 ·北京

企业想建AI数据中心，以前得找系统集成商慢慢攒方案。现在Nvidia直接甩出三套"标准图纸"——从4节点的入门款到128节点的顶配，覆盖生成式AI、智能体AI和万亿参数模型训练。

这三套方案叫Enterprise Reference Architectures（企业参考架构），按规模和硬件分档：

RTX PRO AI工厂：给空间和电力受限的数据中心准备的入门款，基于PCIe架构的NVIDIA RTX PRO服务器，有16节点和32节点两种规格。主打生成式AI、智能体AI、数据分析、视觉计算和工程仿真。适合还没准备好上HGX的企业。

HGX AI工厂：用NVIDIA HGX系统和Spectrum-X网络，支持32、64、128节点配置。采用轨道优化设计，声称token吞吐量比前代高15倍，瞄准大规模多节点训练和推理。

NVL72 AI工厂：旗舰款，单柜实现百亿亿次计算，专为万亿参数模型设计。部署以4柜和8柜配置为主，基于灵活的轨道优化网络架构。

这步棋的关键不在技术参数，在商业模式。以前企业建AI集群要么靠集成商设计，要么直接用云厂商的方案。Nvidia现在把设计环节"标准化"了——网络、监控、软件栈全打包，变成交钥匙工程。有点像二十年前VMware把虚拟化基础设施做成标准产品。

目的很明确：消除企业AI部署的集成摩擦，在AMD或定制ASIC成熟之前把客户锁进Nvidia硬件生态。

整套方案埋了"全栈依赖"。HGX和NVL72强制使用Nvidia的Spectrum-X网络，参考架构还规定了高速东西向和南北向网络规格、监控工具，不只是算力。按这套蓝图建起来的数据中心，后期换非Nvidia的网络或存储组件成本很高。

这次发布有前因。2026年5月，Nvidia刚宣布与Invenergy、Emerald AI合作建灵活AI工厂，又在5月6日开源了MRC——这个RDMA协议正跑在OpenAI的Blackwell集群里。参考架构相当于给这些协议和硬件提供了部署手册。

价格没公布。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴