第八代NVLink凭什么横扫七项AI训练基准？|gpu|nvidia|nvlink|基准|机架

周三凌晨，MLPerf Training 6.0的结果公布了。这个行业公认的AI训练性能基准测试，这次加入了两个全新的混合专家模型预训练任务：DeepSeek-V3 671B和GPT-OSS-20B。在所有七个基准测试中，只有一个平台提交了完整结果——NVIDIA Blackwell。

“NVIDIA的Blackwell平台统治了MLPerf Training 6.0。”这句来自官方博客的话，背后是一组具体数字：七项测试全部拿下最快训练时间，包括那两个新增的混合专家模型任务。更值得注意的是，在DeepSeek-V3 671B这个6710亿参数的超大规模模型上，他们动用了8192个GPU——这是MLPerf训练测试历史上规模最大的Blackwell集群。

GB300 NVL72机架级系统是这次测试的焦点。相比上一代GB200 NVL72，它在相同规模下实现了最高1.6倍的训练速度提升。三个关键改进驱动了这个跳跃：NVFP4精度带来了更高的计算密度，内存容量扩大，功耗上限提升让GPU能够持续保持在峰值性能区间。NVIDIA还同步展示了NVFP4训练方法，这套方案在提升性能的同时，满足了大规模预训练、小规模预训练和微调任务对精度的严格要求。

混合专家模型在大规模训练时面临一个棘手的通信问题：令牌必须跨GPU路由，找到对应的专家子网络。这跟推理阶段的“全对全”通信挑战如出一辙。NVIDIA的应对方案是第五代NVLink交换器——把机架内72个GPU通过高带宽连接成一个统一的计算和内存池，让它们像一块巨型GPU那样工作。按NVIDIA的说法，正是NVLink的带宽优势，让混合专家模型的训练在规模扩展时保持快速高效。

为了支撑这种规模的分布式训练，NVIDIA提供了两条互补的扩展网络路径：基于InfiniBand的Quantum平台和基于以太网的Spectrum-X平台。这两种方案给了数据中心基础设施选型的灵活度，可以根据自身情况构建大型集群。在DeepSeek-V3 671B的训练提交结果中，8192个GPU正是通过NVLink互联协作完成的。

这次全面胜出的背景是芯片竞争格局的变化。谷歌的TPU v6、AMD的MI400、Cerebras的CS-3在过去几轮MLPerf测试中都拿出了有竞争力的成绩。但NVIDIA这次同时做到了单系统性能最快、最大规模分布式训练结果领先，并且是唯一在所有基准测试中提交结果的厂商。