MLPerf V1.1排名公布，NVIDIA AI在Selene超算上的速度是远远领先|ai|gpu|nvidia|英伟达

MLPerf 1.1测试，英伟达AI平台表现出色MLPerf V1.1训练排名公布，NVIDIA AI在Selene超算上的速度是Google TPUv4的5倍

美东时间12月1日，国际权威AI基准测试MLPerf公布了最新一期MLPerf V1.1训练的结果排名。

在这次训练中，多家公司创下新的速度纪录，包括戴尔、浪潮、Supermicro、以及在该测试中首次亮相的微软云Azure均使用 NVIDIA AI平台。

MLPerf是由在AI行业进行前沿研究与开发的企业和研究机构组成的联盟，目的是为AI领域构建公平、有效的基准测试，是衡量机器学习系统性能比较权威的标准。

联盟共同创始成员包括图灵奖得主大卫·帕特森（David Patterson）、谷歌、百度、哈佛、斯坦福等公司机构。自2018年12月首次MLPerf 0.5训练测评以来，已进行过MLPerf 0.6、MLPerf 0.7、MLPerf 1.0、MLPerf 1.1 等多次训练测评。

图 | MLPerf 的共同创始成员以及成员（来源：资料图）

图 | MLPerf成立到迄今为止的训练（来源：资料图）

这次MLPerf 1.1基准测评包含8类具有代表性的机器学习任务，它们分别是强化学习（MiniGo）、目标物体检测-重量级（Mask R-CNN）、图像识别（ResNet）、医学影像分割（3DU-Net）、目标物体检测-轻量级（SSD）、语音识别（RNN-T）、自然语言理解（BERT）以及智能推荐（DLRM）。

图 | 在新一轮的测试中，NVIDIA AI 训练所有模型的速度都快于替代方案（来源：资料图）

在本次宣布的MLPerf训练1.1中，NVIDIA在所有八个热门工作负载中创下记录，也是本次测试中唯一一个在所有8类任务中都提交训练结果的平台。

上图中，不同条形图代表不同AI训练模型的训练所需时间。条状图越短，证明该模型的训练速度越快，亦代表该模型更强大。

其中，深绿色的条状图代表英伟达A100芯片Selene超级计算机上的NVIDIA AI 的训练速度，Selene 是英伟达基于模块化的DGX SuperPOD所架构的一款超级计算机，可通过该公司的InfiniBand网络和软件栈来扩展，而NVIDIA A100 Tensor Core GPU 可提供出色的单芯片性能。

与其他模型相比， A100在Selene上实现了最快的AI训练速度。其中，在医学影像分割（3DUnet）方面，Selene上的NVIDIA AI速度是Google TPUv4的5倍；而在自然语言学习（BERT）方面，Selene上的NVIDIA AI的速度是Graphcore的30倍，Habanalabs的53倍。

浅绿色条状图代表着微软云Azure上的NVIDIA AI的训练速度。尽管微软Azure是第一次参加MLPerf测试，但在训练 AI 模型方面，Azure NDm A100 v4 实例的速度遥遥领先，它也在所有8类训练任务中也表现不俗，可扩展到 2048 个 A100 GPU。据介绍，Azure已开放给大众使用，目前美国六个地区都能租借使用Azure 。

AI 训练是一项需要投入大量人力物力成本的大型工作，凭借NVIDIA AI平台的速度，英伟达也希望帮助更多用户训练更强大的模型，这也是英伟达将 NVIDIA AI 与面向云服务、企业及机构的IT中心等产品相结合的决定。

图 | NVIDIA A100 GPU 在所有八项 MLPerf 1.1 测试中，均实现较好的芯片训练性能

（来源：资料图）

此外，NVIDIA A100 GPU 的性能也比较出众，上图显示了在本次训练的8类机器学习任务中，不同模型的芯片训练性能。其中，绿颜色柱状图代表来自英伟达的NVIDIA A100 GPU的训练性能结果。可以看出，NVIDIA A100 GPU唯一提交了所有8类训练结果的模型，表现水平都比较上乘。尤其在自然语言训练（BERT）方面，NIVIDIA A100 的芯片训练性能是Graphcore模型的3.5倍、Habanalabs模型的4倍。而在医学影像分割（U-Net3D）方面，NIVIDIA A100 的性能是Google TPUv4模型的6.5倍。

图 | 在测试MLPerf 0.7、MLPerf 1.1中，英伟达DGX Super POD芯片以及A100芯片在8个不同测试领域的性能对比（来源：资料图）

通过持续研究和创新，英伟达AI模型的性能也在不断进化。从上图可以看出，对比2020年7月的MLPerf 0.7测试，在本次MLPerf 1.1测试中，英伟达的Super POD和A100芯片中的所有8类训练的性能都有所提升，尤其是在智能推荐（DLRM）方面，SuperPOD上的NVIDIA AI 在不到两年时间内提高了5.3倍。

图 | 英伟达在测试MLPerf 0.5、MLPerf 0.7、MLPerf 1.1中的性能提高（来源：资料图）

此外，对比MLPerf 0.5、MLPerf 0.7、MLPerf 1.1的测试结果，可以看出在过去3年间，英伟达AI训练模型一直在不断进化，在目标物体检测-重量级（Mask R-CNN）方面，此次训练中的表现是3年前的20多倍。

在MLPerf训练1.1中，英伟达、谷歌、微软云、浪潮信息、百度、戴尔等14家公司及科研机构均有参与，并提交了 180项固定任务和6项开放任务的成绩。

固定任务指的是，在训练和测试时必须使用与给定参考模型等价的模型，所使用的优化器也有限定，因此固定任务成绩对于评测AI系统性能有着较强参考性，也因此MLPerf中的固定任务一直是每次测评中最受人关注、且角逐最为激烈的领域。

而在这次在全部16个固定任务测试中，浪潮信息和英伟达在其中15项测试中夺得第一。单机测试的8项任务的冠军头衔，浪潮信息获得了7项，英伟达获得了一项。另外，在集群测试也有8项任务，英伟达揽得7项冠军，微软云获得1项冠军。

此外，NVIDIA几乎所有的 OEM 合作伙伴都在 NVIDIA 认证系统上运行了测试，并为需要高速算力的客户进行了服务器验证。测试中，英伟达也是唯一在所有类别都有所提交的公司。通过本次测试，也证明了NVIDIA平台能以高速且成熟的系统为客户提供助力，以加快他们的工作速度。