Elon Musk的xAI公司宣布了一个里程碑式的进展,即位于田纳西州孟菲斯的超级计算机集群已启动运行,该集群配备有10万张Nvidia H100 GPU,标志着人工智能领域的一个重大突破。Musk通过社交媒体平台X透露,xAI的超级集群将用于训练其大型语言模型Grok,该模型是X Premium订阅服务的一部分。Grok 3的训练工作将充分利用这10万个GPU的算力,Musk对此表示:“这将是一件非常特别的事情。”

此集群的配置十分先进,采用了液冷技术来维持H100 GPU的稳定运行,这是Nvidia自去年以来提供的顶级芯片,备受AI模型开发商青睐。集群采用RDMA架构,即远程直接内存访问,这种结构能够实现计算节点间更高效、低延迟的数据传输,减轻CPU负担,提升整体性能。

xAI的目标是打造“按各指标衡量的全球最强大的人工智能”,并计划在2023年底达成这一目标。孟菲斯超级集群的启动将为这一愿景提供重要支撑。虽然Musk曾表示有意在2025年秋季前建立超级计算工厂,但当前的进展似乎比原计划更快。或许,Musk决定不等待Nvidia更新的H200芯片以及基于Blackwell的B100和B200 GPU,而是选择了现有技术来加速项目进程。

打开网易新闻 查看精彩图片

据透露,超微公司(Supermicro)为这个项目提供了大量硬件支持,其CEO对xAI团队的执行力给予了高度评价。新的超级集群将用于训练Grok 3,预计到今年12月,该模型的训练将告一段落。

与世界顶级超级计算机相比,如Frontier和Aurora,xAI的孟菲斯超级集群在GPU数量上远超前者,显示出其在算力方面的绝对优势。考虑到每台H100 GPU的成本在3万至4万美元之间,xAI在这项工程上的投入可能高达30亿至40亿美元,体现了Musk对AI领域的坚定承诺。

此外,特斯拉已部署约35,000台Nvidia H100 GPU用于自动驾驶汽车的训练,并利用自研的Dojo芯片构建超级计算机,这表明Musk的多家企业正在协同推进AI和高性能计算技术的发展。