1、核心芯片
传统数据中心以 CPU(中央处理器) 为核心,其设计初衷是处理各种复杂的逻辑任务,功率相对受控(通常在 $200W$ 到 $400W$ 之间)。
而 AI 数据中心的核心是 GPU(图形处理器) 或 ASIC(专用集成电路)。
功耗显著提高:单颗高性能 AI 芯片(如 Blackwell 或 H200 系列)的功耗已经逼近甚至超过了 $700W$ - $1000W$。
而且,数万个核心同时在高频下满载工作。
2、机架密度
传统机架: 每个机架的功率通常在 $5kW$ 到 $15kW$ 之间。
AI 机架:随着 NVLink 等高速互联技术的发展,为了减少延迟,服务器必须紧密堆叠。现在的 AI 机柜功率普遍在 $40kW$ 到 $100kW$,甚至更高。
同样的占地面积,AI 机房对电力的需求是传统机房的 5-10 倍。
3、“冷却税”
传统数据中心靠风扇吹冷风(风冷)就能解决。但 AI 芯片产生的热量太集中,风冷已经达到了物理极限。
于是,液冷引入。
为了压制 AI 芯片的高温,必须使用冷板式液冷或浸没式液冷。虽然液冷更高效,但驱动庞大的泵送系统、冷机以及换热设备,依然需要消耗惊人的电量。
4、任务模式
传统负载: 比如网页浏览或邮件系统,负载是波动的,服务器经常有“休息时间”。间歇性工作。
AI 训练负载: 一个大型语言模型(LLM)的训练任务一旦开始,数万颗 GPU 就会进入 100% 满载状态,且这种状态会持续数周甚至数月,几乎没有任何停歇。
这种“全时高能耗”是传统业务无法比拟的。
5、存储与网络
AI 不仅仅是计算,还需要海量的数据吞吐。
HBM(高带宽显存): 为了跟上 GPU 的速度,AI 服务器使用了大量的 HBM。虽然它效率高,但在如此巨大的规模下,显存本身的功耗也变得不可忽视。
高速互联: 维持数万颗芯片之间“秒速通信”的光模块和交换机,本身也是发热大户。
热门跟贴