自2018年以来,机器学习公共基准(MLCommons)联盟一直在举办类似人工智能训练领域奥运会的活动。这项名为MLPerf的竞赛由一系列任务组成,用于在预定义的数据集上训练特定的人工智能模型,使其达到一定的精度。从本质上讲,这些任务被称为基准测试,测试硬件和低级软件配置的设置情况,以训练特定的人工智能模型。
各公司每年会汇总提交两次材料进行竞争,看哪家公司提交的材料能够最快地训练模型,材料通常包括中央处理器(CPU)、图形处理单元(GPU)以及相应的优化软件。
打开网易新闻 查看精彩图片
毫无疑问,自MLPerf赛事创办以来,用于人工智能训练的尖端硬件已经得到了显著改善。多年来,英伟达发布了4款新一代GPU,这些GPU已经成为了行业标准(英伟达最新一代的Blackwell GPU虽然尚未成为标准,但也越来越受欢迎)。参与MLPerf竞赛的各公司也一直在使用更大的GPU集群来处理训练任务。
不过,MLPerf基准也越来越严格。MLPerf的负责人大卫·坎特(David Kanter)表示,这种严格程度的提升是通过设计来实现的,基准要跟上行业发展的步伐。“这些基准是为了更有代表性。”他说。
有趣的是,数据表明,大语言模型及其前身的规模增长速度超过了硬件的提升速度。因此,每次引入一个新的基准,最快的训练时间就会延长。然后,硬件的改进会逐渐缩短执行时间,但下一个基准测试又会导致执行时间延长,然后循环往复。
IEEE Spectrum
《科技纵览》
官方微信公众平台
热门跟贴