【编者按】大模型竞争的背后也是基础设施的竞争。随着大模型规模越来越大,单体数据中心所能承受的训练量逐步达到临界值,未来多数据中心训练成为趋势。大模型三巨头OpenAI、Google和Anthropic均在布局多数据中心训练,Semianalysis对三巨头多数据中心训练的情况进行了分析,以下是具体内容。

由于Scaling Laws不断改进,当前的人工智能基础设施愈发难以满足需求。像OpenAI、Google Gemini等领先的前沿人工智能模型训练集群今年已扩展到10 万个 GPU ,并计划到 2025 年将超过 30 万个 GPU 集群。考虑到建设时间、许可、法规和电力可用性等物理限制,传统的同步训练方法单个数据中心站点的大型模型已达到临界点。

Google、OpenAI 和 Anthropic 已经在执行相关计划,将其大型模型训练从一个站点扩展到多个数据中心园区。谷歌拥有当今世界上最先进的计算系统,并率先大规模使用了许多关键技术,这些技术直到现在才被其他公司采用,例如机架级液冷架构和多数据中心训练。

Gemini 1 Ultra 在多个数据中心进行了培训。尽管他们拥有更多的 FLOPS,但他们现有的模型仍落后于 OpenAI 和 Anthropic,因为他们在合成数据、强化学习和模型架构方面仍在追赶,但即将发布的 Gemini 2 将改变这一现状。此外,到 2025 年,谷歌将有能力在多个园区进行千兆瓦级的训练,但令人惊讶的是,谷歌的长期计划并不像 OpenAI 和微软那么积极。

打开网易新闻 查看精彩图片

大多数公司才刚刚引入采用 Nvidia GB200 架构的高密度液冷 AI 芯片,预计明年产量将达到数百万颗。另一方面,谷歌已经部署了数百万个液冷 TPU,占液冷 AI 芯片容量超过 1 GW。谷歌的基础设施与其竞争对手之间的差异肉眼可见。

打开网易新闻 查看精彩图片

上图所示的人工智能培训园区已拥有接近 300MW 的电力容量,明年将增至 500MW。除了规模庞大之外,这些设施还非常节能。我们可以在下面看到大型冷却塔和集中设施供水系统,水管连接三座建筑物,能够排出近 200 兆瓦的热量。根据最新的环境报告,该系统允许 Google 全年大部分时间无需使用冷却器即可运行,从而在 2023 年实现 1.1 PUE(电力使用效率)。

打开网易新闻 查看精彩图片

虽然上图仅显示了设施供水系统,但水也通过直接到芯片系统输送到机架,液-液热交换器将热量从机架传输到中央设施供水系统。这种非常节能的系统类似于 Nvidia GB200 的 L2L 部署 - 在我们的GB200 深入研究中详细描述。

另一方面,微软当今最大的培训集群(如下所示)不支持液体冷却,并且每栋建筑的 IT 容量降低了约 35%,尽管建筑 GFA(总建筑面积)大致相似。已发布的数据显示 PUE 为 1.223,但 PUE 计算对风冷系统有利,因为服务器内部的风扇功率没有得到正确考虑 - 对于风冷 H100 服务器来说,这是服务器功率的 15%+,而对于风冷 H100 服务器来说,PUE 计算为 <5%液体 DLC 冷却服务器。因此,对于提供给芯片的每瓦特,微软需要额外约 45% 以上的功率用于服务器风扇功率、设施冷却和其他非 IT 负载,而谷歌则接近每瓦特 IT 功率约 15% 的额外负载。叠加 TPU 的更高效率,情况就变得模糊了。

打开网易新闻 查看精彩图片

此外,为了在沙漠(亚利桑那州)实现良好的能源效率,微软需要大量的水 - 用水效率 (L/kWh) 为 2.24,远高于集团平均值 0.49,谷歌的平均值略高于 1。用水量增加引起了媒体的负面关注,他们被要求为该园区即将建设的数据中心改用风冷式冷水机,这将减少每栋建筑的用水量,但会进一步增加 PUE,从而扩大与 Google 的能效差距。在未来的报告中,我们将更详细地探讨数据中心的工作方式和典型的超大规模设计。

因此,基于现有的数据中心参考设计,Google 拥有更高效的基础设施,并且可以更快地建造兆瓦,因为每栋建筑的容量提高了 >50%,并且每个 IT 负载需要承包的公用电力更少。

0 1

谷歌的AI训练基础设施

谷歌总是有一种独特的方式来构建基础设施。虽然他们各自的数据中心设计比当今的微软、亚马逊和 Meta 更先进,但这并不能全面体现他们的基础设施优势。十多年来,谷歌也一直在建设大型园区。下图所示的 Google 位于爱荷华州康瑟尔布拉夫斯的站点就是一个很好的例子,尽管已有多年历史,但其西部地区的 IT 容量仍接近 300MW 。虽然大量容量被分配给传统工作负载,但我们相信底层的建筑承载着大量的 TPU 。东部扩建采用最新的数据中心设计,将进一步提高人工智能培训能力。

打开网易新闻 查看精彩图片

谷歌最大的人工智能数据中心也彼此非常接近。 Google 有两个主要的多数据中心区域,位于俄亥俄州和爱荷华州/内布拉斯加州。如今,康瑟尔布拉夫斯周围的区域正在积极扩建,容量已达到现有容量的两倍以上。除了上述园区外,谷歌还在该地区拥有其他三个站点,这些站点都在建设中,并且正在升级为高带宽光纤网络。

打开网易新闻 查看精彩图片

三个站点彼此相距约 15 英里(康瑟尔布拉夫斯、奥马哈和 Papillon 爱荷华州),另一个站点位于内布拉斯加州林肯市约 50 英里。下图所示的 Papillion 园区将为 Google 在奥马哈和康瑟尔布拉夫斯周围的业务增加 >250MW 的容量,加上上述总容量,到 2023 年将超过 500MW,其中很大一部分分配给 TPU。

打开网易新闻 查看精彩图片

另外两个站点尚未那么大,但正在快速发展:到 2026 年,所有四个园区合并起来将形成一个 GW 规模的人工智能训练集群。约 50 英里外的林肯数据中心将成为 Google 最大的单个站点。

谷歌庞大的 TPU 足迹还不止于此。另一个即将到来的千兆瓦级集群位于俄亥俄州哥伦布市周围 - 该地区遵循类似的主题,正在开发三个园区,到 2025 年底总装机容量将达到 1 GW!

打开网易新闻 查看精彩图片

如下所示的新奥尔巴尼集群将成为 Google 最大的集群之一,并且已经托管 TPU v4、v5、v6。

打开网易新闻 查看精彩图片

谷歌俄亥俄州和谷歌爱荷华州/内布拉斯加州的集中区域也可以进一步互连,为训练单个模型提供数千兆瓦的电力。我们在数据中心模型中拥有超过 5,000 个数据中心的精确详细的季度历史和预测电力数据。这包括人工智能实验室、超大规模、新云和企业的集群构建状态。本报告稍后将详细介绍多数据中心培训的软件堆栈和方法。

0 2

微软和OpenAI开始反击?

微软和 OpenAI 很清楚他们短期内在基础设施方面的劣势,并开始了一项雄心勃勃的基础设施建设,以超越谷歌。他们正试图在自己的水冷多数据中心训练集群游戏中击败谷歌。

微软和 OpenAI正在建设接近GW级的超密集液冷数据中心园区,并与Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作,帮助他们实现比 Google更大的总AI 训练和推理能力。

其中一些园区一旦建成,将比目前任何一个谷歌园区还要大。事实上,微软在威斯康星州的园区将比谷歌在俄亥俄州的所有园区加起来还要大,但建设它需要一些时间。

更雄心勃勃的是 OpenAI 和微软计划将各个超大型园区互连在一起,并在全国范围内开展大规模的分布式培训。微软和 OpenAI 将率先推出多 GW 计算系统。他们与供应链合作伙伴一起深入开展有史以来最雄心勃勃的基础设施建设。

这份报告将在接近尾声时详细介绍微软和 OpenAI 的基础设施建设。在此之前,它将首先介绍多校区同步和异步训练方法、落后者、容错、静默数据损坏以及与多数据中心训练相关的各种挑战。

0 3

多数据中心分布式训练

大型语言模型 ( LLMs ) 主要是同步训练的。训练数据通常分为几个较小的小批量,每个小批量都由在不同 GPU 组上运行的模型的单独数据副本进行处理。处理完小批量后,每个副本都会计算梯度,然后所有副本必须在每个小批量处理结束时同步。

这种同步涉及聚合来自所有副本的梯度,通常通过像全归约这样的集体通信操作。一旦梯度被聚合,它们就会被平均并用于一致更新模型的参数。这确保了所有数据副本都维护一组相同的参数,从而使模型能够以稳定的方式收敛。此过程的锁步性质(所有设备在进入下一步之前等待彼此完成)确保没有设备在模型状态方面领先或落后太远。

打开网易新闻 查看精彩图片

虽然同步梯度下降提供了稳定的收敛,但它也带来了重大挑战,特别是当您在单个训练作业中扩展到超过 100k+ 芯片时,通信开销会增加。同步性质还意味着您有严格的延迟要求,并且必须有一个连接所有芯片的大管道,因为数据交换会发生巨大的突发。

当您尝试使用来自多个区域的 GPU 来处理相同的训练工作负载时,它们之间的延迟会增加。即使光纤中的光速为 208,188 公里/秒,从美国东海岸到美国西海岸的往返时间 (RTT) 也为 43.2 毫秒 (ms)。此外,各种电信设备也会造成额外的延迟。这是一个很大的延迟,对于标准同步训练来说很难克服。

根据阿姆达尔定律,当存在大量同步活动时,向工作负载添加更多芯片所带来的加速效果会递减。当您添加更多芯片时,并且程序运行时需要同步的部分(即对应于保持串行且无法并行化的计算比例)保持不变,将达到理论极限,即使 GPU 数量增加一倍不会使总体吞吐量增加超过 1%。

打开网易新闻 查看精彩图片

除了阿姆达尔定律描述的将更多 GPU 扩展到单个工作负载的理论限制之外,同步梯度下降还存在诸如落后者等实际挑战。当只有一个芯片慢 10% 时,就会导致整个训练运行慢 10%。例如,在下图中,从第 7,500 步到第 19,000 步,字节跳动看到他们的 MFU 慢慢下降,因为工作负载中越来越多的芯片逐渐变慢,整个工作负载变得落后。

在识别并清除掉队者后,他们从检查点重新开始训练工作量,将 MFU 增加到正常水平。正如您所看到的,MFU 从 40% 降至 30%,下降了 25%。当您拥有 100 万个 GPU 时,MFU 减少 25% 相当于在任何给定时间有 25 万个 GPU 处于空闲状态,仅 IT 资本支出就相当于超过 10B 美元的成本。