打开网易新闻 查看精彩图片

AI热潮催生了数十个专门构建的AI数据中心,这些设施从头开始建设,专门处理AI工作负载的独特需求。但大多数AI数据中心项目需要数年时间才能完成。即使建成后,仅凭这些新设施可能也无法跟上不断增长的AI基础设施需求。

因此,数据中心行业必须既改造现有设施以支持AI,又投资建设全新的专用AI数据中心。在许多情况下,相比建设新设施,对数据中心进行AI改造是实现AI部署的更快速、更经济、更可持续的路径。

然而,这种改造也面临挑战。AI工作负载有特殊要求,传统数据中心并不总能很好地满足这些需求。在某些情况下,AI改造的成本可能超过其带来的收益。

传统数据中心面临的AI支持挑战

理论上,任何数据中心都可以支持任何类型的工作负载。数据中心只是容纳服务器的建筑物,托管AI工作负载的服务器在尺寸或类型上与托管Web应用程序或数据库等传统服务的服务器并无根本差异。

然而,在传统数据中心中运行AI的挑战在于,AI工作负载——特别是由大语言模型驱动的工作负载——运行规模往往超出传统设施的处理能力。具体而言,传统数据中心可能在以下几个方面难以支持下一代AI工作负载:

电力供应方面,无论是在训练还是推理阶段,AI模型都比大多数其他类型的工作负载消耗更多能源。这意味着即使传统数据中心能够容纳托管AI工作负载的服务器,也可能无法提供这些服务器运行所需的全部电力

冷却系统方面,高电力使用量伴随着高冷却需求,因为更多的电力消耗会产生更多热量。在这方面,传统设施的冷却系统往往没有足够的容量来满足AI的需求。

机架规模和布局方面,AI服务器——即使是包含GPU等专用硬件设备的服务器——通常可以安装在标准数据中心服务器机架中。但现有设施中的机架可能太小,无法支持AI所需的服务器数量。机架布局也可能带来挑战,因为它们可能无法足够高效地散热。

网络连接方面,一些AI工作负载需要极低延迟和高带宽。传统数据中心网络基础设施可能无法跟上这些要求。

因此,虽然传统数据中心通常在一定程度上可以支持现代AI工作负载,但它们可能缺乏企业所需的电力、冷却、机架规模和网络可扩展性,无法以企业要求的水平运行AI模型。

传统数据中心的AI改造方案

通过改造,传统设施也可以适应AI工作负载。具体而言,数据中心运营商可以进行以下投资:

修改机架尺寸或服务器机房布局——这是相对便宜且简单的AI改造策略,但只有在设施同时具备支持更大、更密集服务器部署的电力和冷却能力时才能获得回报。

部署更高效的冷却系统类型(如直接芯片冷却),可以在不需要大幅增加电力消耗的情况下提高AI的冷却能力。虽然这需要大量前期投资,但可以产生长期节省。

升级电力基础设施,使设施能够接收更大容量的电力并将其分配给服务器。这是相对昂贵的投资,而且复杂性在于电网有时根本缺乏向数据中心提供更多电力的能力。在这种情况下,部署现场发电可能是一个选择,但这会给改造项目增加更多费用。

提高现有数据中心电力基础设施的效率,以最小化"搁浅电力"。这允许数据中心更有效地利用现有电力容量。这比重大电力基础设施升级投资较小,但缺点是可能只会带来电力容量的增量增长,这可能不足以将传统数据中心转变为世界级AI数据中心。

升级网络基础设施以减少延迟并增加带宽。这种改变的成本可能差异很大。特别取决于数据中心距离企业级网络基础设施的接近程度:在数据中心可以接入已存在的高性能网络连接的位置,改善网络性能更容易,而不必在大面积区域内铺设新的网络基础设施。

改造与重建的策略选择

改造的替代方案是建设全新的数据中心,从一开始就能支持AI工作负载。主要缺点是需要大量费用和时间。还存在风险,即当新AI数据中心建成投运时,AI工作负载可能已经发生变化,新设施可能不再适合。

选择改造还是完全重建很大程度上取决于现有设施能力与AI工作负载需求之间的差距。AI工作负载的需求在规模和范围上可能差异很大;例如,部署预训练模型通常比运行必须先训练才能开始推理的模型需要更少能源。支持AI工作负载的具体硬件类型可能差异很大,能源和冷却需求也是如此。

因此,对计划的AI工作负载需求和当前数据中心容量进行详细分析至关重要。这种分析对于确定改造项目是否足以使数据中心跟上现代AI的步伐,还是需要完全重建是必不可少的。

Q&A

Q1:为什么传统数据中心难以支持AI工作负载?

A:传统数据中心在电力供应、冷却系统、机架布局和网络连接方面存在局限性。AI工作负载需要更多电力和冷却,对延迟和带宽要求更高,而传统设施的基础设施往往无法满足这些大规模需求。

Q2:数据中心AI改造主要包括哪些方面?

A:主要包括修改机架尺寸和布局、部署更高效的冷却系统、升级电力基础设施、提高电力使用效率以及升级网络基础设施。这些改造可以提升数据中心对AI工作负载的支持能力。

Q3:如何决定是改造还是重建数据中心?

A:需要详细分析现有设施能力与AI工作负载需求之间的差距。考虑因素包括AI工作负载的具体类型、规模、硬件需求以及能源冷却要求。如果差距过大,重建可能更合适;如果改造能满足需求,则改造更经济快速。