马斯克的“地表最强AI训练集群”按下点火键，10万块英伟达H100加持！|gpu|埃隆_马斯克|微软|科技巨头|英伟达h100|训练集群|谷歌

美国当地时间 7 月 22 日，马斯克在社交平台 X 上发帖称：“xAI 团队、X 团队、英伟达及其他支持公司已于当地时间凌晨 4 时 20 分开始在‘孟菲斯超级集群’上进行训练。”

（来源：X）

按照马斯克的说法，“孟菲斯超级集群”（Memphis Supercluster）堪称是当前世界上最强大的 AI 训练集群。

他还表示，孟菲斯超级集群由 10 万块英伟达 H100 GPU 组成（采用液冷散热），在单个 RDMA（远程直接数据存取，能够克服网络传输中服务器端数据处理延迟）结构上运行，对 AI 进行训练。

另外，他在留言区中透露，目标是“在今年 12 月前训练出各项指标参数都是全球最强大的 AI”（有可能是 Grok 3）。

（来源：xAI 公司官网）

此前，马斯克是 OpenAI 的联合创始人之一，但后来由于公司内部的利益冲突等问题，他在 2018 年退出了这家公司。眼看 AI 浪潮席卷全球，马斯克自然不甘落后，于是他自立门户。

2023 年 7 月，马斯克官宣 xAI 正式成立，其将“理解宇宙的真实本质”作为公司愿景，他希望未来可以用 AI 来帮助人类解决复杂的科学和数学问题并且“理解”宇宙。

由于他本人“光环”的加持，加之 xAI 的团队成员绝大部分都是来自微软、DeepMind 等，xAI 俨然成为了 AI 领域“搅局者”一般的存在，对标以 OpenAI 为代表的全球 AI 领域头部玩家。

去年 11 月，xAI 公司推出旗下名为“Grok”的首个 AI 大模型产品。据官方资料显示，Grok 可以通过社交平台 X 实时了解现实世界，而且还可以回答通常被其他大多数 AI 模型拒绝的“敏感”问题，一度被业界称为“叛逆版的 ChatGPT”。

与此同时，xAI 的吸金能力也让包括 OpenAI、Anthropic、Inflection AI 等一众 AI 公司汗颜。据悉，xAI 今年 5 月完成了 60 亿美元的 B 轮融资，使该公司估值达到 240 亿美元。

作为对比，以 AI 界的“扛把子”OpenAI 为例，成立近 10 年融资总额超 140 亿美元，而 xAI 成立仅仅 10 个月便完成了 OpenAI 融资总额的一半。

能获得如此高的融资金额，一方面得益于马斯克全球强大的号召力和影响力，另一方面或许是资本看中这家初创公司的潜力及其产品开发迭代进程。

尤其是 2024 年以来，xAI 对 Grok 的开发迭代按下“加速键”。今年 3 月，xAI 推出从头训练的、包含 3140 亿参数的专家混合模型 Grok-1，其参数是 GPT-3.5 的 1.8 倍（GPT-3.5 包含 1750 亿参数）；紧接着，又推出 128k 长文本的 Grok-1.5，能够理解长语境和实现高级推理；4 月，推出旗下首款多模态大模型 Grok-1.5V，能够处理文本、图表、图像等内容，且在理解现实世界方面优于其他 AI 模型；就在不久前，马斯克表示计划将在今年 8 月推出 Grok-2。

（来源：xAI 公司官网）

为了能与 OpenAI 的 ChatGPT、谷歌的 Gemini、Meta 的 Llama 等分一杯羹，马斯克更是“煞费苦心”。今年 5 月，马斯克就表示要在年底前部署 8.5 万块英伟达 H100 GPU，随后又进行了加码，并表示计划部署 10 万块英伟达 H100 GPU 来训练和运行 Grok 的下一个版本。

与此同时，马斯克还计划将所有芯片串联成一个巨型计算机系统“超级计算集群”，地点则选址在美国田纳西州的孟菲斯市。

毕竟，从很大程度上来说，Grok-2 开发进程主要是受到芯片算力的掣肘。马斯克曾坦言：“由于没有足够多的 AI 芯片，推迟了 Grok-2 模型的训练和发布。训练 Grok-2 大约需要 2 万块英伟达 H100 GPU，而训练 Grok-2 的下一个版本以及未来更高的版本将需要 10 万块 H100 GPU。”

马斯克所说的这个超级计算集群规模更是空前。简单对比一下，作为全球规模最庞大的计算集群之一，Meta 在今年 3 月推出了 2 个计算集群用于训练 Llama 3，每个计算集群都包含 2.4 万块英伟达 H100 GPU，xAI 的超级集群规模超出其 4 倍有余。

值得一提的是，近日 Meta 的 Llama 3.1 405B 正式发布，其在多项测试中超越 GPT-4o 和 Claude 3.5 Sonnet，而训练 Llama 3.1 则使用了多达 1.6 万块英伟达 H100 GPU。

显然，算力已成科技巨头的必争之地。据消息称，Meta 计划到今年年底采购 35 万块英伟达 H100 GPU，将其拓展到 60 万块的规模；另外，微软和 OpenAI 也在计划投入 1000 亿美元打造名为“星际之门”的超级计算机，预计 2030 年完成开发。

不难看出，马斯克口中“世界上最强大的 AI 训练集群”的地位似乎维持不了太久。

今年 5 月，马斯克表示希望超级集群能够在 2025 年秋季之前运行起来，如今，随着他此次的官宣按下“点火键”，这比原计划提早了一年多。

图｜马斯克亲临超级集群施工现场（来源：X）

然而，该超级集群的建设和使用并没有得到当地一些组织的认可。据外媒报道，尽管孟菲斯商会团体认同 xAI 公司在该地建设如此大规模的超级集群工厂，但当地反污染组织和其他两个环保组织对该超级集群的能源和水消耗表示担忧，并警告称可能会造成严重的“能源负担”。

这些组织在一封公开信中表示：“预计 xAI 的冷却塔每天至少需要 100 万加仑的水。我们鼓励 xAI 支持对孟菲斯市废水再利用系统的投资，以减少供水压力。”

另外，据孟菲斯照明、天然气和水务公司的首席执行官估计，“xAI 的超级集群工厂每小时可能消耗高达 150 兆瓦的电力，这大致相当于 10 万户家庭所需的电力。”

参考资料：

1.https://www.tomshardware.com/pc-components/gpus/elon-musk-fires-up-the-most-powerful-ai-training-cluster-in-the-world-uses-100000-nvidia-h100-gpus-on-a-single-fabric

2.https://www.pcmag.com/news/elon-musk-xai-powers-up-100k-nvidia-gpus-to-train-grok