一、液冷——智算中心的核心散热技术

当AI算力以指数级速度增长,传统风冷已触及散热天花板。液冷技术凭借温度传递快、带走热量多、噪音低、节能省空间等显著优势,正全面取代风冷,成为未来智算中心的散热主轴。

最具标志性的事件是:英伟达最新商用的GB200系列及后续产品,已全面采用冷板液冷方案,实现100%全液冷架构,液冷覆盖CPU、GPU、内存等全部核心部件。这意味着,液冷已从"可选项"升级为"必选项"。

打开网易新闻 查看精彩图片

二、液冷系统的通用架构

液冷系统可清晰拆解为机房侧ICT设备侧两大部分。机房侧进一步细分为一次侧二次侧——浸没式与冷板式在机房侧架构基本一致,核心差异体现在ICT设备侧。

层级

组成

功能说明

一次侧(室外)

冷却塔、一次侧管网、一次侧冷却液(通常为水)

外部冷源(冷水机组/冷却塔/干冷器),通过水温升降实现热量转移

二次侧(室内)

CDU、液冷机柜、二次侧管网、二次侧冷却液

供液环路+服务器内部流道,通过冷却液温度升降转移热量;与一次侧通过CDU中的板式换热器完成间壁式换热

ICT设备侧

浸没式:Tank+制冷工质,设备完全浸没;冷板式:冷板贴合CPU/GPU/内存等核心热源上方

两种技术路线的核心分水岭

制冷工质选择

  • 冷板式:乙二醇/丙二醇溶液(防冻需求)或去离子水
  • 浸没式:氟化液、矿物油(如硅油)等

三、液冷加速渗透的四大驱动力

驱动力一:散热更强,综合成本更低

高散热:液冷介质——去离子水、醇基溶液、氟碳类工质、矿物油等——其载热能力、导热系数和对流换热系数均远超空气,单芯片散热能力大幅领先风冷。

低TCO:液冷虽增加初期投资,但运行成本显著降低,投资回收期短:

数据来源

核心结论

中兴通讯测算

10MW数据中心,液冷方案(PUE 1.15)vs 冷冻水方案(PUE 1.35),约2.2年回收增量初投资

施耐德数据

相同容量下,20kW/机架液冷比风冷节省10%投资,40kW/机架节省14%投资

驱动力二:算力功耗密度飙升,液冷成为刚需

智算中心芯片功耗持续攀升,单机柜热密度正以前所未有的速度增长:

芯片/架构

TDP功耗

英伟达B200

1000W

GB200超级芯片(1颗Grace CPU + 2颗Blackwell GPU)

2700W

AI GPU机架峰值密度(Vertiv预测)

2024年130kW→ 2029年突破1MW

GPU架构从Blackwell向Rubin Ultra持续进化,功耗密度只增不减。液冷不再是锦上添花,而是硬性门槛。

驱动力三:全球PUE管控趋严,能耗倒逼液冷

碳中和背景下,各国对数据中心PUE提出更严格要求。以我国为例,新建大型/超大型数据中心PUE须降至1.25以内

PUE =(IT设备 + 制冷设备 + 供电设备 + 照明及其他)÷ IT设备能耗

PUE越接近1,数据中心能耗越集中于IT设备本身。而在传统风冷数据中心中,温控环节能耗占比高达40%(主要来自精密空调)。液冷替代精密空调,是降低PUE、节约整体能耗的最有效路径。

驱动力四:全球CSP云厂商全面拥抱液冷

微软、谷歌、Meta、亚马逊等头部云厂商均已在新建数据中心中大规模部署液冷方案,行业共识已经形成。

打开网易新闻 查看精彩图片

四、液冷三大技术路线全景

按接触方式,液冷分为冷板式、浸没式、喷淋式三大类;按是否相变,各自又可细分为单相和两相方案。

路线

子类

是否相变

成熟度

冷板式

单相冷板式 / 两相冷板式

单相 / 两相

★★★★★(当前主流)

浸没式

单相浸没式 / 相变浸没式

单相 / 两相

★★★☆☆(快速增长)

喷淋式

★★☆☆☆(特定场景)

五、冷板式液冷——当下主流方案

5.1 基本原理与特点

冷却液不直接接触电子器件,而是通过冷板将发热元件的热量间接传递给循环管路中的冷却液,再由冷却液带走热量。

优势

劣势

兼容现有硬件架构,易于维护

低功耗时机柜节能收益不显著

液体与设备不接触,可靠性高

液冷板需适配器件布局,标准化难度大

5.2 两种部署模式

模式

全称

适用场景

L2A

Liquid to Air Side Car(空气辅助液冷)

传统风冷数据中心改造,无需额外液冷基础设施

L2L

Liquid-to-Liquid CDU(液态冷却)

MW级IT热量清除,需额外液冷基础设施,适合大规模智算中心

六、冷板式的两大进化方向

方向一:两相式冷板——利用汽化潜热,散热能力跃升

与单相液冷(冷却液始终为液态)不同,两相冷板式液冷允许冷却液在吸热端沸腾为气态,在冷凝端放热后恢复液态,利用汽化潜热实现更高效的热量转移。

两相冷板式液冷有望实现2500W级芯片散热

方向二:微通道液冷板(MLCP)——冷却液直达芯片表面

MLCP(Micro-Channel Liquid Cooling Plate)通过蚀刻工艺将传统毫米级流道缩小至30~150微米级别,并将均热板、水冷板、芯片封装盖板(IHS)三合一,最大程度减少导热界面材料(TIMs)的使用。

核心特征

微型化

流道从毫米级缩至微米级,热交换效率大幅提升

高度集成化

多组件合一,冷却液更贴近芯片,散热路径更短

商业化前景

指标

数据

MLCP单价

传统水冷板的3~5倍

GB300机柜用量

108 + 18个MLCP/机柜

单块报价

800~900美元

毛利率

较高

行业最新进展:2024年9月23日,微软CEO纳德拉宣布,其团队已开发出微流体冷却技术——通过细如发丝的微小通道,将冷却液直接输送至芯片内部。该技术散热效率比现有散热板高出3倍,可将芯片最高温升降低65%

七、浸没式液冷——超高密度场景的终极方案

浸没式液冷将ICT设备完全浸入制冷工质中,分为单相双相(相变)两种方案:

对比维度

单相浸没式

双相(相变)浸没式

散热原理

液体循环对流散热

沸腾相变(液相→气相),利用汽化潜热

散热效率

较高

极高

功率密度

中高

250~500kW/浸没腔

机柜设计

更简单,氟化液易操作维护

相对复杂

材料兼容性

好,污染物风险低

需关注相变过程中的材料影响

基础设施

较复杂

更简单,可用干式冷却器,无需冷却水塔

双相浸没式的核心优势:通过沸腾过程实现极高传热效率,支持超高功率密度;且冷却基础设施更简洁,一次侧可直接采用干式冷却器,无需蒸发降温设施。

打开网易新闻 查看精彩图片

八、总结

维度

风冷

液冷

单机柜散热上限

~30~50kW

100kW~1MW+

PUE

1.3~1.5

1.1~1.2

噪音

极低

适用场景

传统数据中心

智算中心/高密度AI集群

一句话总结:当AI芯片功耗从百瓦级跃升至千瓦级、机柜密度从数十千瓦飙向兆瓦级,液冷已不是"要不要用"的问题,而是"怎么用、用哪种"的问题。

  • 冷板式是当下主流,微通道(MLCP)和两相式是近中期方向;
  • 浸没式是超高密度场景的终极答案;
  • 液冷,是智算中心高密度算力时代唯一的散热出路。