Meta Compute 近期推出,旨在解决Meta在 AI 领域面临的一个长期问题。与其他一些大型科技公司类似,它需要的计算能力远远超过其当前基础设施的设计容量。Meta Compute 的目标是打造一个内部 AI 基础设施平台,帮助其扩展 AI 工作负载的数据中心容量。该平台的首要任务是电力可用性以及围绕能源和规模的长期规划。

打开网易新闻 查看精彩图片

Meta 为此已经布局了一段时间。“我们预计,开发领先的 AI 基础设施将成为开发最佳 AI 模型和产品体验的核心优势。”Meta 首席财务官 Susan Li 去年年中在财报电话会议上表示。Meta Compute 将这一理念更加具体化。它将讨论从增量升级转向能够支持大规模持续运行的 AI 系统的基础设施。这一举措也反映了 Meta 在长期产能规划方面的激进思考。

Mark Zuckerberg 描述了这一雄心的规模。他写道:“Meta 计划在本十年建设数十千兆瓦的产能,随着时间的推移,这一数字将达到数百千兆瓦或更多。我们如何设计、投资和合作来构建这一基础设施,将成为战略优势。”

这些关于 Meta Compute 的声明清楚地表明,Meta 将基础设施视为竞争杠杆。而这方面的规划早在几个月前就已经开始。公司内部的 AI增长无疑是至关重要的。可预见的未来现在与电力和建设时间表息息相关,就像与模型开发或软件创新息息相关一样。

Meta Compute 将 Meta现有基础设施运营中各自管理的多个部分整合在一起。它涵盖数据中心选址开发和设施建设,还包括将新容量投入运营的过程。Meta 希望该平台能够在单一项目下管理所有这些活动。该举措包括标准化的设施设计和协调的建设时间表,以及在多个地点共享的部署流程也是项目的一部分。这使得 Meta 能够批量增加 AI 容量。它还集中监督时间表、供应商协调和调试。这意味着随着需求的增长,新的数据中心可以更一致地建设和集成,并在需要时灵活扩展。

打开网易新闻 查看精彩图片

Meta Compute 的技术骨干由Santosh Janardhan 负责,他目前领导 Meta 的全球基础设施组织。他在新举措下的职责范围包括数据中心架构和内部软件平台,他还负责定制硅芯片工作、开发者生产力工具以及 Meta 全球数据中心和网络足迹的运营。

长期产能规划由去年加入 Meta 的Daniel Gross 负责。他的职责包括预测未来的计算需求、管理供应商合作关系、跟踪基础设施行业动态,以及模拟大规模建设随时间推移的展开方式。这个职位的目的是让 Meta 更早地了解材料和工期方面的约束。

Meta 总裁兼副董事长 Dina Powell McCormick 负责政府协调和融资工作。政府渴望保持参与,甚至希望对 AI 的发展方式拥有一定的控制权。McCormick 在 Meta Compute 中的角色重点是与国家和地方政府合作,支持大型基础设施项目的许可、融资和部署,包括能源获取、土地使用和监管审批方面的接触。随着 Meta 推动以前所未有的规模扩展数据中心容量,这些职责正变得越来越重要。

打开网易新闻 查看精彩图片

就市场上其他大型科技玩家的行动而言,Meta Compute 让 Meta 更加直接地处于基础设施竞赛的中心。微软严重依赖 Azure 将 AI 基础设施外部化。谷歌继续围绕自己的硅芯片和数据中心构建紧密集成的系统。Meta 采取了不同的方法。它致力于直接拥有和运营更多的 AI 基础设施。它的大多数同行更喜欢在云平台或合作伙伴之间分散资源。

然而,选择直接拥有和运营 AI 基础设施也伴随着风险。大规模基础设施会在数年内占用资本,将位置和设计的决策提前很久锁定。这也增加了 Meta 对电力可用性波动和监管审批的风险。Meta 可能还必须面对与传统软件时间表不一致的建设延误。如果 AI 需求转移得比预期更快,或者供应约束恶化,这些承诺将变得更难撤销。Meta Compute 信号表明对长期 AI 增长的信心,但也意味着Meta 正在承担更多与这种规模建设相关的运营和财务风险。

虽然存在风险,但 Meta 正在采取一条大胆而雄心勃勃的路线。如果成功,它可能会获得它所寻求的竞争优势。