MLPerf 1.1测试,英伟达AI平台表现出色MLPerf V1.1训练排名公布,NVIDIA AI在Selene超算上的速度是Google TPUv4的5倍
美东时间12月1日,国际权威AI基准测试MLPerf公布了最新一期MLPerf V1.1训练的结果排名。
在这次训练中,多家公司创下新的速度纪录,包括戴尔、浪潮、Supermicro、以及在该测试中首次亮相的微软云Azure均使用 NVIDIA AI平台。
MLPerf是由在AI行业进行前沿研究与开发的企业和研究机构组成的联盟,目的是为AI领域构建公平、有效的基准测试,是衡量机器学习系统性能比较权威的标准。
联盟共同创始成员包括图灵奖得主大卫·帕特森(David Patterson)、谷歌、百度、哈佛、斯坦福等公司机构。自2018年12月首次MLPerf 0.5训练测评以来, 已进行过MLPerf 0.6、MLPerf 0.7、MLPerf 1.0、MLPerf 1.1 等多次训练测评。
图 | MLPerf 的共同创始成员以及成员(来源:资料图)
图 | MLPerf成立到迄今为止的训练(来源:资料图)
这次MLPerf 1.1基准测评包含8类具有代表性的机器学习任务,它们分别是强化学习(MiniGo)、目标物体检测-重量级(Mask R-CNN)、图像识别(ResNet)、医学影像分割(3DU-Net)、目标物体检测-轻量级(SSD)、语音识别(RNN-T)、自然语言理解(BERT)以及智能推荐(DLRM)。
图 | 在新一轮的测试中,NVIDIA AI 训练所有模型的速度都快于替代方案(来源:资料图)
在本次宣布的MLPerf训练1.1中,NVIDIA在所有八个热门工作负载中创下记录,也是本次测试中唯一一个在所有8类任务中都提交训练结果的平台。
上图中,不同条形图代表不同AI训练模型的训练所需时间。条状图越短,证明该模型的训练速度越快,亦代表该模型更强大。
其中,深绿色的条状图代表英伟达A100芯片Selene超级计算机上的NVIDIA AI 的训练速度,Selene 是英伟达基于模块化的DGX SuperPOD所架构的一款超级计算机,可通过该公司的InfiniBand网络和软件栈来扩展,而NVIDIA A100 Tensor Core GPU 可提供出色的单芯片性能。
与其他模型相比, A100在Selene上实现了最快的AI训练速度。其中,在医学影像分割(3DUnet)方面,Selene上的NVIDIA AI速度是Google TPUv4的5倍;而在自然语言学习(BERT)方面,Selene上的NVIDIA AI的速度是Graphcore的30倍,Habanalabs的53倍。
浅绿色条状图代表着微软云Azure上的NVIDIA AI的训练速度。尽管微软Azure是第一次参加MLPerf测试,但在训练 AI 模型方面,Azure NDm A100 v4 实例的速度遥遥领先,它也在所有8类训练任务中也表现不俗,可扩展到 2048 个 A100 GPU。据介绍,Azure已开放给大众使用,目前美国六个地区都能租借使用Azure 。
AI 训练是一项需要投入大量人力物力成本的大型工作,凭借NVIDIA AI平台的速度,英伟达也希望帮助更多用户训练更强大的模型,这也是英伟达将 NVIDIA AI 与面向云服务、企业及机构的IT中心等产品相结合的决定。
图 | NVIDIA A100 GPU 在所有八项 MLPerf 1.1 测试中,均实现较好的芯片训练性能
(来源:资料图)
此外,NVIDIA A100 GPU 的性能也比较出众,上图显示了在本次训练的8类机器学习任务中,不同模型的芯片训练性能。其中,绿颜色柱状图代表来自英伟达的NVIDIA A100 GPU的训练性能结果。可以看出,NVIDIA A100 GPU唯一提交了所有8类训练结果的模型,表现水平都比较上乘。尤其在自然语言训练(BERT)方面,NIVIDIA A100 的芯片训练性能是Graphcore模型的3.5倍、Habanalabs模型的4倍。而在医学影像分割(U-Net3D)方面,NIVIDIA A100 的性能是Google TPUv4模型的6.5倍。
图 | 在测试MLPerf 0.7、MLPerf 1.1中,英伟达DGX Super POD芯片以及A100芯片在8个不同测试领域的性能对比(来源:资料图)
通过持续研究和创新,英伟达AI模型的性能也在不断进化。从上图可以看出,对比2020年7月的MLPerf 0.7测试,在本次MLPerf 1.1测试中,英伟达的Super POD和A100芯片中的所有8类训练的性能都有所提升,尤其是在智能推荐(DLRM)方面,SuperPOD上的NVIDIA AI 在不到两年时间内提高了5.3倍。
图 | 英伟达在测试MLPerf 0.5、MLPerf 0.7、MLPerf 1.1中的性能提高(来源:资料图)
此外,对比MLPerf 0.5、MLPerf 0.7、MLPerf 1.1的测试结果,可以看出在过去3年间, 英伟达AI训练模型一直在不断进化,在目标物体检测-重量级(Mask R-CNN)方面,此次训练中的表现是3年前的20多倍。
在MLPerf训练1.1中,英伟达、谷歌、微软云、浪潮信息、百度、戴尔等14家公司及科研机构均有参与,并提交了 180项固定任务和6项开放任务的成绩。
固定任务指的是,在训练和测试时必须使用与给定参考模型等价的模型,所使用的优化器也有限定,因此固定任务成绩对于评测AI系统性能有着较强参考性,也因此MLPerf中的固定任务一直是每次测评中最受人关注、且角逐最为激烈的领域。
而在这次在全部16个固定任务测试中,浪潮信息和英伟达在其中15项测试中夺得第一。单机测试的8项任务的冠军头衔,浪潮信息获得了7项,英伟达获得了一项。另外,在集群测试也有8项任务,英伟达揽得7项冠军,微软云获得1项冠军。
此外,NVIDIA几乎所有的 OEM 合作伙伴都在 NVIDIA 认证系统上运行了测试,并为需要高速算力的客户进行了服务器验证。测试中,英伟达也是唯一在所有类别都有所提交的公司。通过本次测试,也证明了NVIDIA平台能以高速且成熟的系统为客户提供助力,以加快他们的工作速度。
热门跟贴