OpenAI正在通过承诺为其大规模星门数据中心建设项目提供电力生产和传输资金,来应对大规模AI部署面临的最严重限制之一。
这一举措标志着电力获取对数据中心规划影响的战略转变。用于支持大规模AI模型的设施需要比传统企业站点高得多的电力水平,从根本上改变了AI基础设施的成本结构。
根据德勤的数据,到2035年,美国AI专用数据中心的电力需求可能会增长超过30倍,从2024年的约4千兆瓦增至约123千兆瓦。
类似的担忧促使微软上周做出了可比较的声明,表示将为增量电力和水利基础设施付费,以防止其数据中心对当地公用事业造成压力。
在OpenAI的案例中,每个星门站点都将包含一个因地制宜的能源计划,可能涉及建设专用的发电、储能和输电能力,而不是依赖现有的社区电网资源。
"每个社区和地区都有独特的能源需求和电网条件,我们的承诺将根据地区量身定制,"OpenAI在一份声明中表示。"根据站点情况,这可能包括引入项目完全资助的新专用电力和储能设施,到增加并支付新的发电和输电资源。"
从光纤优先转向电力优先的战略转变
分析师表示,此举反映了数据中心战略的根本性转变,从"光纤优先"转向"电力优先"的站点选择。
"历史上,数据中心建在互联网交换点和城市中心附近,以最小化延迟,"Gartner高级首席分析师Ashish Banerjee说。"然而,随着AI训练需求达到千兆瓦级别,OpenAI正在发出信号,他们将优先考虑具有'能源主权'的地区,即他们可以建设专有发电和输电设施的地方,而不是在过度承载的公共电网上争夺资源。"
对于网络架构而言,这意味着"中距离传输"的大规模扩张。通过将这些巨型数据中心放置在能源丰富但偏远的位置,行业将不得不在长途、高容量暗光纤方面进行大量投资,以将这些"电力孤岛"连接回边缘。
"我们应该期待一个分叉的网络:位于偏远地区的大规模集中式核心用于'冷'模型训练,以及位于用户附近的高度分布式边缘用于'热'实时推理,"Banerjee补充道。
TechInsights的半导体分析师Manish Rawat也指出,这些好处可能以更大的架构复杂性为代价。
"在网络方面,这推动架构朝着更少的超级枢纽和更多区域分布的推理和训练集群发展,通过高容量骨干链路连接,"Rawat说。"权衡是更高的前期资本支出,但对可扩展性时间表有更大控制权,减少对缓慢的公用事业升级的依赖。"
对于使用AI服务的企业客户来说,这种转变可能影响长期成本可预测性和区域可用性,因为平台变得更紧密地与电力丰富的位置绑定,而不是传统的都市数据中心枢纽。
成为自己的公用事业公司
通过控制电力来源和传输,AI提供商本质上正在成为自己的公用事业公司。
"对于数据中心互连设计,这将焦点从简单冗余转向'能源感知'的负载平衡,"Banerjee说。"如果AI模型提供商拥有发电厂,他们可以将计算周期与能源输出同步,创造前所未有的硬件级集成。"
对于延迟敏感的工作负载,分析师表示存在一个常见误解,即这些大型站点将处理所有AI处理。在实践中,直接能源投资针对的是模型训练的"蛮力",而不是实时推理所需的"光速"。
"这一举措实际上放松了对训练站点本身的延迟要求,允许更强大但距离较远的互连,"Banerjee补充道。"这里的真正创新不仅仅是更快的芯片,而是将电网与计算结构同步,确保电力波动不会中断数月的训练运行。"
这种转变还改变了跨数据中心互连的弹性设计方式,从传统的电网多样性转向结合自有电力基础设施与网络级冗余的混合模型。
"这种变化对网络设计提出了更高要求,需要跨分布式设施的更高弹性,以及对延迟和流量的更严格控制,"Rawat说。"对于AI工作负载,特别是那些对延迟敏感的工作负载,这可能会导致分层架构,大型训练集群位于专用电力资产附近,而推理基础设施仍然靠近最终用户。"
Q&A
Q1:OpenAI的星门数据中心项目有什么特点?
A:星门数据中心项目的特点是每个站点都包含因地制宜的能源计划,可能涉及建设专用的发电、储能和输电能力,而不是依赖现有的社区电网资源。根据站点情况,这可能包括引入项目完全资助的新专用电力和储能设施。
Q2:为什么AI数据中心需要这么多电力?
A:用于支持大规模AI模型的设施需要比传统企业站点高得多的电力水平,从根本上改变了AI基础设施的成本结构。根据德勤数据,到2035年,美国AI专用数据中心的电力需求可能会从2024年的约4千兆瓦增长超过30倍至约123千兆瓦。
Q3:电力优先策略会如何改变数据中心的网络架构?
A:这种策略推动架构朝着更少的超级枢纽和更多区域分布的推理和训练集群发展,形成分叉网络:位于偏远地区的大规模集中式核心用于模型训练,以及位于用户附近的高度分布式边缘用于实时推理,通过高容量骨干链路连接。
热门跟贴