打开网易新闻 查看精彩图片

据 OpenAI 前研究员、前超级对齐部门成员 Leopold Aschenbrenner 近期发布的一份报告中提到,「到 2028 年,我们正走在耗资 1000 亿美元的单个训练集群的道路上。」

Leopold 在所写的报告中估计,GPT-4 集群的建设成本为 5 亿美元。AI 模型的规模的增长与算力需求成正比,而算力集群的性能将直接影响 AI 模型的性能,更高性能的算力集群可以支持更快速、更高效的模型训练,使得 AI 模型能够处理更复杂的任务,提供更准确的预测和决策。

但大型 AI 算力集群的建设并非易事。「我在哪里找到 10GW?」成为旧金山热议的话题。算力集群背后需要考虑的是确保电力、土地、许可和数据中心建设。等待 GPU 可能需要一年的时间,但这些的交货期要长得多。

解读要点 1. 构建 AI 算力集群这事儿为什么很重要? 2. 从算力到 AI 算力,再到 AI 算力集群,AI 算力集群到底是什么?包含哪些部分? 3. AI 算力集群并非「越大越好」?有哪些必须要搞清楚的「盲区」? 4. 从业内解读看,三大 AI 云服务厂商的布局有何不同?

为什么构建 AI 算力集群很重要?AI 算力集群和大模型之间的关系是什么?

1、今年 3 月,据外媒 Information 消息,微软和 OpenAI 计划筹备数据中心项目,该项目包含一个拥有数百万专用服务器芯片的超级计算机,项目成本可能高达 1000 亿美元。同时,据传,科威特也正在建造一个 1GW、1.4M H100 等效的集群。

2、据 OpenAI 前研究员、前超级对齐部门成员 Leopold Aschenbrenner 所写的报告[14] 估计,GPT-4 集群的建设成本为 5 亿美元,而随着模型规模的增长,算力集群的建设支出将随之增长。未来全球 GPU 生产的更大比例可能会流向最大的训练集群,例如,因为只有少数一家领先的实验室被整合,而不是许多拥有前沿模型规模集群的公司。

3、而 AI 模型的规模的增长与算力需求成正比,因为更复杂的模型需要更强大的计算资源来训练和运行。算力集群的性能直接影响 AI 模型的性能,更高性能的算力集群可以支持更快速、更高效的模型训练,使得 AI 模型能够处理更复杂的任务,提供更准确的预测和决策。

① 据工业和信息化部的研究报告预测,到 2024 年年底,我国将有 5%~8%的企业大模型参数从千亿级跃升至万亿级,算力需求增速会达到 320%。同时,国际数据公司 IDC 与浪潮信息发布的《2023-2024 年中国人工智能计算力发展评估报告》显示,我国智能算力规模年复合增长率将高达 33.9%。

4、但大型 AI 算力集群的建设并非易事,从大模型训练到 AI 算力集群,还包括一环,即电力。对于训练集群来说,钱也许不是限制因素,电力才是。

① 「我在哪里找到 10GW?」是旧金山近期的热门话题。任何计算人员都在考虑的是确保电力、土地、许可和数据中心建设。等待 GPU 可能需要一年的时间,但这些的交货期要长得多。而各厂几乎没有多余的容量,电力合同通常是长期锁定的,而建造一个新的吉瓦级核电站需要十年。

② 据国际能源署(IEA)发布的报告《电力 2024》,一次谷歌搜索需要 0.3 瓦时的电力,而一次 ChatGPT 请求则需要 2.9 瓦时的电力,如果利用 ChatGPT 处理每天 90 亿次的搜索,预计每年电力消耗将增加 10 TWh(1TWh=10 亿度电)。

弄清楚 AI 算力集群是什么?由哪些关键部分组成?

1、首先,先弄清楚概念。

① 从狭义角度来讲,算力是软硬件配合执行某种信息处理需求的能力;

② AI 算力是面向人工智能算法模型训练与运营服务的计算机系统能力,通常由 GPU、ASIC、FPGA、NPU 等各类专用芯片承担计算工作;

③ AI 算力集群是专门为人工智能应用提供大规模计算资源的基础设施,由大量的处理器(如 CPU、GPU 或专用的 AI 加速器)组成,提供高性能的计算能力,以满足深度学习、大模型等复杂算法的需求。通过采用先进的 AI 芯片、不断地优化算法以及提高数据传输效率,来实现算力的提升。

2、AI 算力集群主要由 AI 芯片等硬件架构、操作系统组成。其中,

① 硬件架构包括 AI 芯片、内存、CPU 处理器、存储、集群网络等关键组件。AI 芯片是 AI 算力集群的核心,分为 GPU、FPGA、ASIC、神经拟态芯片,通常使用的是英伟达的 GPU;由于绝大多数 AI 算力集群都是采用英伟达 GPU 算力卡搭建,因此服务器主要采用英伟达的 DGX、HGX 服务器;集群网络主要是 RDMA 网络,RDMA 一种高带宽低延迟的大规模通信网络,适用于 AI 算力集群。

② 除了硬件架构外,还包括操作系统对软件进行优化,以提高计算效率,包括操作系统、虚拟化技术、并行计算库、负载均衡监控与管理等。操作系统在 AI 算力集群起到承上启下的作用,对下管理着包括 CPU 处理器、AI 加速卡、内存、磁盘等硬件,对上为应用软件提供算力支撑。

3、从产业角度来看,AI 算力产业链的上、中、下游分别基础软硬件、算力网络及平台、各类应用场景。

① 上游基础软硬件是计算力、存储力、运载力的最基本单元,也是决定算力质量的根本环节。主要包括基础硬件(如 CPU、GPU、存储器等)、基础软件(如操作系统、数据库、中间件等)及各类计算设备(服务器、板卡、终端等)和网络设备(交换机、路由器等)。上游主要由设施、设备、软件供应商、网络运营商构成;

② 中游算力网络及平台是为下游应用提供算力服务的核心环节,主要是各类算力基础设施,以及基于基础设施开展的各类算力服务和安全服务,主要由基础电信企业、第三方数据中心服务商、云计算厂商构成;

③ 下游各类应用场景包括人工智能等算力应用,以及政府、电信、金融、工业、教育、交通、能源等行业应用,包括互联网企业、工业企业以及政府、金融、电力等各行业用户。

关于 AI 算力集群,有哪些必须要搞清楚的「盲区」?

1、集群算力如何计算。

① 集群有效算力 (Q) 由单个 GPU 峰值算力 (C) 、GPU 数量 (N)、算力利用率 (u)三个因素共同决定,即 Q = C * N * u。在大模型训练时,算力利用率 (u) 即 MFU (Model FLOPS Utilization),是关键,MFU 代表使用 N 个 GPU 的计算任务所能获得的有效算力。

2、算力集群并非越大越好。

① 在理想情况下,集群总有效算力与 GPU 卡数量呈线性增长,但增长受限于单个 GPU 的利用率,可能较低。集群的性能看两个指标......

② 影响集群加速比的因素包括峰值算力、显存容量、互联方式和网络架构等,在优化情况下,线性加速比可达 90% 以上。大规模 GPU 集群的平均算力利用率仅约为 50%......

3、影响大模型的训练速率即算力集群的计算速率。计算速率的影响因素包括单设备计算速率、设备数及加速比。其中,单设备计算速率主要由 AI 芯片决定,因此 AI 算力集群主要看......

4、算力中心和云数据中心并不是一回事......

订阅机器之心Pro会员通讯,查看完整解读