周三凌晨,MLPerf Training 6.0的结果公布了。这个行业公认的AI训练性能基准测试,这次加入了两个全新的混合专家模型预训练任务:DeepSeek-V3 671B和GPT-OSS-20B。在所有七个基准测试中,只有一个平台提交了完整结果——NVIDIA Blackwell。

“NVIDIA的Blackwell平台统治了MLPerf Training 6.0。”这句来自官方博客的话,背后是一组具体数字:七项测试全部拿下最快训练时间,包括那两个新增的混合专家模型任务。更值得注意的是,在DeepSeek-V3 671B这个6710亿参数的超大规模模型上,他们动用了8192个GPU——这是MLPerf训练测试历史上规模最大的Blackwell集群。

打开网易新闻 查看精彩图片

GB300 NVL72机架级系统是这次测试的焦点。相比上一代GB200 NVL72,它在相同规模下实现了最高1.6倍的训练速度提升。三个关键改进驱动了这个跳跃:NVFP4精度带来了更高的计算密度,内存容量扩大,功耗上限提升让GPU能够持续保持在峰值性能区间。NVIDIA还同步展示了NVFP4训练方法,这套方案在提升性能的同时,满足了大规模预训练、小规模预训练和微调任务对精度的严格要求。

混合专家模型在大规模训练时面临一个棘手的通信问题:令牌必须跨GPU路由,找到对应的专家子网络。这跟推理阶段的“全对全”通信挑战如出一辙。NVIDIA的应对方案是第五代NVLink交换器——把机架内72个GPU通过高带宽连接成一个统一的计算和内存池,让它们像一块巨型GPU那样工作。按NVIDIA的说法,正是NVLink的带宽优势,让混合专家模型的训练在规模扩展时保持快速高效。

为了支撑这种规模的分布式训练,NVIDIA提供了两条互补的扩展网络路径:基于InfiniBand的Quantum平台和基于以太网的Spectrum-X平台。这两种方案给了数据中心基础设施选型的灵活度,可以根据自身情况构建大型集群。在DeepSeek-V3 671B的训练提交结果中,8192个GPU正是通过NVLink互联协作完成的。

这次全面胜出的背景是芯片竞争格局的变化。谷歌的TPU v6、AMD的MI400、Cerebras的CS-3在过去几轮MLPerf测试中都拿出了有竞争力的成绩。但NVIDIA这次同时做到了单系统性能最快、最大规模分布式训练结果领先,并且是唯一在所有基准测试中提交结果的厂商。