打开网易新闻 查看精彩图片

最近,LessWrong网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、各个AI巨头的GPU/TPU数量进行了估计,并展望了芯片的未来。

原文:https://www.lesswrong.com/posts/bdQhzQsHjNrQp7cNS/estimates-of-gpu-or-equivalent-resources-of-large-ai-players

很难找到精确的 AI 基础设施数字。有许多报道的数字是“[公司] 本季度在基础设施上花费了 Xbn”和“[公司] 购买了 10 万台 H100 或“拥有 10 万台 H100 集群”,但当我寻找某个公司可以使用多少计算的估计值时,我找不到一致的数字。

在这里,我试图从各种来源收集信息,以获得大致的估计值:(i) 截至 2024 年年底,我们预计谁将拥有多少计算能力?(ii) 我们预计 2025 年会发生怎样的变化?然后我花了一点时间讨论这对主要前沿实验室的训练计算可用性意味着什么。在深入讨论之前,我想提出一些注意事项:

  • 这些数字都是我在有限的时间内根据公开数据做出的估算,可能包含错误并遗漏某些重要信息。

  • 付费供应商很可能提供更好的估算,他们可以花更多时间详细了解有多少晶圆厂、每个晶圆厂可能生产什么、数据中心在哪里、每个数据中心有多少芯片以及其他细节,并得出更准确的数字。这并不是一个好的替代品,如果你需要非常准确的估算,我建议你去几个供应商之一购买这些数据。

话虽如此,让我们开始吧。

Nvidia 芯片生产

首先要看看最重要的数据中心 GPU 生产商 Nvidia。截至 11 月 21 日,在 Nvidia 公布 2025 年第三季度收益后[1] 英伟达数据中心年度收入预计约为 1100 亿美元。这一数字高于 2023 年的 420 亿美元,预计 2025 年将达到 1730 亿美元(基于2026 财年 1770 亿美元的估计)。[2]

数据中心收入主要取决于芯片销售。2025 年芯片销售量预计为 650 万到 700 万 GPU ,几乎全部为 Hopper 和 Blackwell 型号。根据 CoWoS-S 和 CoWoS-L 制造工艺的预期比例以及Blackwell 的预期增长速度,我估计 Hopper 型号将达到 200 万,Blackwell 型号将达到 500 万。

2024年生产

有关 2024 年产量的数据来源很少,而且经常相互矛盾,但2024 年第四季度 Hopper GPU 的估计为 150 万台 (尽管这将包括一些 H20 芯片,这是一种质量明显较差的芯片,因此是一个上限)和数据中心逐季收入比率表明产量的上限为 500 万台(这将假设每台 H100 等效产品的收入约为 2 万美元,这似乎很低 - 使用更合理的 2.5 万美元,我们得到 400 万台)。这与今年早些时候生产的150-200 万台 h100 的估计相冲突 - 这种差异是否可以合理地归因于 h100 与 h200、扩大产能或其他因素,尚不清楚,但由于这与他们的收入数字不一致,我选择使用较高的数字。

先前制作

为了了解现在以及特别是未来谁拥有最多的计算能力,基于 Nvidia 的销售情况,由于 GPU 本身的改进和生产数量的大幅增加,2023 年之前的数字不会有显著的变化。

根据估计,微软和 Meta 在 2023 年各获得了 15 万台 H100,再加上 Nvidia 数据中心的收入,2023 年 H100 当量产量在 100 万台左右似乎是有可能的。

各组织的 GPU/TPU 数量

在这里,我尝试估算微软、Meta、谷歌、亚马逊和 XAI 到 2024 年底将可以使用多少芯片(以 H100 当量表示),以及 2025 年的项目数量。

许多消息来源都报道称“ Nvidia 46% 的收入来自 4 个客户”。然而,这可能会产生误导。如果我们查看Nvidia 10-Q 和 10-K,我们可以看到它们区分了直接客户和间接客户,这里的 46% 这个数字指的是直接客户。然而,直接客户并不是我们在这里关心的。直接客户大多是SMC、HPE 和 Dell 等中间商,他们购买 GPU 并组装间接客户(例如公共云提供商、消费者互联网公司、企业、公共部门和初创公司)使用的服务器。

我们关注的公司属于“间接客户”,而这些公司的披露则稍微宽松一些,可能也不太可靠。对于 2024 财年(如前所述,大约是 2023 年),Nvidia 的年度报告 披露,“一家主要通过系统集成商和分销商购买我们产品的间接客户估计占总收入的约 19%”。他们必须披露收入份额超过 10% 的客户[3]因此,要么他们的第二个客户规模最多是第一个客户的一半,要么这里存在测量误差[4]。最大的客户是谁?主要候选人似乎是微软。每季度都会有零星的披露,第二个客户短暂超过 10%[5]但并非始终如一,而且无论是 2023 年全年还是 2024 年前三季度[6]。

预计 2024 年底 H100 等效芯片数量

微软、Meta

鉴于微软拥有最大的公共云之一,是 OpenAI 的主要计算提供商,没有(与谷歌和亚马逊不同)大量安装自己的定制芯片,并且与同行相比,微软似乎与 Nvidia 有着特殊的关系(例如,他们显然是第一个获得 Blackwell 芯片的公司),微软很可能是这两年最大的客户。2024 年的收入份额没有像 2023 年那样精确指定,Nvidia Q2 10-Q 中提到 H1 收入的 13%,而第三季度仅“超过 10%”,但 13% 似乎是一个合理的估计,表明他们在 Nvidia 销售中的份额比 2023 年有所下降。

还有其他关于客户规模的估计——彭博社的数据估计 微软占 Nvidia 收入的 15%,其次是 Meta Platforms,占收入的 13%,亚马逊占收入的 6%,谷歌占收入的 6% 左右——从消息来源来看,尚不清楚这指的是哪一年。截至 2023 年底,这些云提供商拥有的 H100 芯片数量报告 (Meta 和微软为 15 万片,亚马逊、谷歌和甲骨文各为 5 万片)与彭博社的数据更吻合。

这里的一个锚定数据点是 Meta声称到 2024 年底,Meta 将拥有 60 万台 H100 等效计算能力。据说其中包括 35 万台 H100,其余大部分可能是 H200 和上个季度到货的少量 Blackwell 芯片[7]。

如果我们将这 60 万视为准确的数字并使用收入数字的比例,我们可以得到更好的估计,即微软的可用计算量将比这高出 25% 到 50% 之间,相当于 75 万到 90 万个 H100 当量。

谷歌、亚马逊

人们一直认为亚马逊和谷歌对 Nvidia 收入的贡献落后。然而,这是两个截然不同的情况。

谷歌已经拥有大量自己的定制 TPU,这是其内部工作负载的主要芯片[8]亚马逊内部的 AI 工作量似乎很可能比这小得多,而他们相当数量的 Nvidia 芯片主要反映了他们预计需要通过其云平台满足外部对 GPU 的需求(最重要的是来自 Anthropic 的需求)。

首先以谷歌为例。如前所述,TPU 是其内部工作负载的主要芯片。一家领先的订阅服务公司 Semianalysis 提供该领域的数据,该公司在 2023 年底声称 ,“[谷歌] 是唯一一家拥有出色内部芯片的公司”,“谷歌拥有 近乎无与伦比的能力,可以低成本、高性能地大规模部署人工智能”,他们是 “世界上计算能力最强的公司”。他们的基础设施支出一直居高不下[9] 自这些故事发表以来。

对 TPU 与 GPU 的支出进行 2-1 估算[9] 并假设(可能保守)每美元的 TPU 性能相当于微软的 GPU 支出,我得到的数字是截至 2024 年底在 100 万至 150 万 H100 当量范围内。

另一方面,亚马逊也有自己的定制芯片 Trainium 和 Inferentia,但他们在这些芯片上的起步比谷歌的 TPU 晚得多,而且似乎在 这些芯片上落后了不少,甚至提供了 1.1 亿美元的免费积分让人们试用,这表明他们迄今为止还没有看到很好的适应性。半分析 表明 ,“我们的数据显示,微软和谷歌在 2024 年人工智能基础设施上的支出计划将使他们部署的计算能力远远超过亚马逊”和“此外,他们即将推出的内部芯片 Athena 和 Trainium2 仍然远远落后。”

就 H100 等效物而言,这意味着什么尚不清楚,而且 Trainium 或 Trainium2 芯片的数量也很难得到,除了上述免费积分计划中可用的 40,000 个芯片。

然而,截至 2024 年中期,这种情况可能会发生变化 - 首席执行官 Andy Jassy 在 2024 年第三季度财报电话会议上谈到 Trainium2 时表示:“我们看到人们对这些芯片有浓厚的兴趣,我们已经多次与制造合作伙伴联系,生产的数量远远超出了我们最初的计划。”然而,当时他们“将在未来几周内开始加紧生产”,因此他们似乎不太可能在 2024 年拥有大量供应。

XAI

我要介绍的最后一家重要公司是 XAI。他们发展迅速,拥有该领域一些最大的集群和最宏伟的计划。他们在 2024 年底公布了一个可运行的 10 万 H100 集群,但目前他们似乎无法为该站点提供足够的电力。

2025 年——Blackwell

2024 年人工智能状况报告 对主要供应商购买 Blackwell 芯片的情况进行了估计——“大型云公司正在大量购买这些 GB200 系统:微软购买了 70 万到 140 万个,谷歌购买了 40 万个,AWS 购买了 36 万个。据传,OpenAI 至少拥有 40 万个 GB200。”这些数字是芯片总数,因此我们存在重复计算 2024 年 Blackwell 购买量的风险,所以我将它们打了 15% 的折扣。

如果我们以微软的估计为 100 万,那么这里的谷歌和 AWS 数字与它们在 Nvidia 采购中与微软的典型比例一致。这也意味着微软占 Nvidia 总收入的 12%[10],这与 2024 年其在 Nvidia 收入中的份额小幅下降一致。

本报告中没有给出 Meta 的估计,但 Meta预计明年人工智能相关基础设施支出将“大幅加速”,这表明其在 Nvidia 支出中的份额将保持高位。我估计到 2025 年,它们将保持在微软支出的 80% 左右。

对于 XAI,在这些芯片的背景下并没有被过多提及,但埃隆马斯克声称他们将在 2025 年夏天投入 30 万个 Blackwell 集群。假设马斯克有一些典型的夸张,那么到 2025 年底他们可能会拥有 20 万到 40 万个这样的芯片。

一台 B200 值多少台 H100?为了衡量容量增长,这是一个重要的问题。训练和推理引用的数字不同,但对于训练,2.2 倍是 目前的最佳估计 (2024 年 11 月)。

对于谷歌,我假设 Nvidia 芯片继续占其总边际计算量的 1/3。对于亚马逊,我假设该比例为 75%。这些数字非常不确定,估算值受这些数字影响较大。

值得注意的是,这里仍有许多 H100 和 GB200 下落不明,而且其他地方可能有大量此类产品,尤其是在 Nvidia 10% 的报告门槛之下。Oracle 等云提供商和其他小型云提供商可能拥有大量此类产品,而且可能还有一些重要的非美国客户,因为 Nvidia 在 2025 年第三季度表示,今年迄今为止 55% 的收入来自美国以外地区(低于上一年的 62%)。由于这是直接收入,因此可能并非全部来自非美国最终客户。

芯片数量估算摘要 [11]

打开网易新闻 查看精彩图片

模型训练笔记

上述数字是对总可用计算的估计,但许多人可能更关心训练最新前沿模型可能需要多少计算。我将重点介绍 OpenAI、Google、Anthropic、Meta 和 XAI。这一切都具有相当的推测性,因为所有这些公司要么是私营的,要么规模太大,以至于它们不必披露这方面的成本明细,而就 Google 而言,这只是其目前业务的一小部分。

OpenAI 2024 的训练成本预计将达到 30 亿美元,推理成本为 40 亿美元。据一位消息人士透露,Anthropic“预计今年亏损约 20 亿美元,而营收高达数亿美元”。这意味着总计算成本将比 OpenAI 的 70 亿美元高出 20 亿美元。他们的推理成本将大幅降低,因为他们的收入主要来自 API,应该有正的毛利率,这表明这 20 亿美元中的大部分用于培训。假设为 15 亿美元。与 OpenAI 相比,培训成本劣势两倍似乎不会妨碍他们的竞争力。这似乎也有可能,因为他们的主要云提供商是 AWS,而正如我们所见,AWS 的资源通常比为 OpenAI 提供计算服务的微软要少。前面提到的人工智能现状报告显示,有传言称微软将为 OpenAI 提供 40 万 GB200 芯片,这将超过 AWS 整个传言中的 GB200 容量,因此可能远远高于 Anthropic 的训练能力。

谷歌则不太清楚。Gemini Ultra 1.0 模型的 训练 计算量约为 GPT-4 的 2.5 倍,但发布时间晚了 9 个月,比最新的 Llama 模型高出 25%。正如我们所见,谷歌可能比同行拥有更多的可用计算量,但作为一家主要的云提供商和一家大型企业,它的需求更大[12] 在计算方面比 Anthropic 或 OpenAI 甚至 Meta 都要强,后者也拥有大量独立于前沿模型训练的内部工作流程,例如其社交媒体产品的推荐算法。尽管 Llama 3 发布时间晚了 8 个月,但其计算能力却比 Gemini 弱,这表明 Meta 迄今为止为这些模型分配的资源略少于 OpenAI 或 Google。

据称,XAI 使用 20,000 台 H100 来训练其 Grok 2,并预计 Grok 3 将使用多达 100,000 台 H100。鉴于 GPT-4据称在 90-100 天内在 25,000 块 Nvidia A100 GPU 上进行了训练,而 H100 大约是 A100 的 2.25 倍 ,这将使 Grok 2 的计算能力达到 GPT-4 的两倍左右,而 Grok 3 的计算能力预计将再提高 5 倍,使其处于领先地位。

请注意,从历史上看,并非所有这些都来自他们自己的芯片 -据估计,他们从 Oracle 云租用了 16,000 台 H100。如果 XAI 能够将其计算的一小部分用于训练,就像 OpenAI 或 Anthropic 一样,我猜它的训练规模可能与 Anthropic 相似,略低于 OpenAI 和 Google。

| |