ElonMusk部署十万H100芯片构建世界顶级计算集群|gpu|nvidia|计算集群|超级计算机

Elon Musk的xAI公司宣布了一个里程碑式的进展，即位于田纳西州孟菲斯的超级计算机集群已启动运行，该集群配备有10万张Nvidia H100 GPU，标志着人工智能领域的一个重大突破。Musk通过社交媒体平台X透露，xAI的超级集群将用于训练其大型语言模型Grok，该模型是X Premium订阅服务的一部分。Grok 3的训练工作将充分利用这10万个GPU的算力，Musk对此表示：“这将是一件非常特别的事情。”

此集群的配置十分先进，采用了液冷技术来维持H100 GPU的稳定运行，这是Nvidia自去年以来提供的顶级芯片，备受AI模型开发商青睐。集群采用RDMA架构，即远程直接内存访问，这种结构能够实现计算节点间更高效、低延迟的数据传输，减轻CPU负担，提升整体性能。

xAI的目标是打造“按各指标衡量的全球最强大的人工智能”，并计划在2023年底达成这一目标。孟菲斯超级集群的启动将为这一愿景提供重要支撑。虽然Musk曾表示有意在2025年秋季前建立超级计算工厂，但当前的进展似乎比原计划更快。或许，Musk决定不等待Nvidia更新的H200芯片以及基于Blackwell的B100和B200 GPU，而是选择了现有技术来加速项目进程。