(来源:六安新闻网)

转自:六安新闻网

摘要:随着AI算力密度飙升,单相液冷面临局部热点、温度波动大等短板,行业需求正从“散热”转向“精准控温”。两相液冷利用相变潜热与恒温钳位特性,将芯片温差控制在±2℃以内,显著减少降频,提升算力利用率。结合芯片级冷板、机柜级后置面板及智能CDU的系统架构,支持新建集群与存量机房不停机改造。某数据中心改造后,机柜功率从8kW提升至25kW,PUE降至1.2以下,实现从被动散热到主动控温的升级。

一、行业正在经历一场静默的变革:算力密度飙升,热管理迎来临界点

1.AI算力爆发推动机柜功率密度持续攀升

近年来,随着大模型训练和推理任务成为数据中心的核心负载,AI集群的芯片功耗急剧上升。主流GPU单卡功耗已突破700W,部分高阶计算单元甚至逼近1kW级别。这意味着传统风冷系统早已无力应对,即便是单相液冷,也在高热流密度场景中逐渐接近其能力边界。

更关键的是,这种趋势并非短期波动,而是结构性升级。据行业数据显示,2025年全球超40%的新建智算中心将采用平均超过30kW/机柜的设计密度,部分地区甚至规划了50kW以上的超高密度部署。当单位空间内散发的热量呈指数级增长,“能不能散热”已不再是问题,真正决定系统稳定性的,是“能不能精准控温”。

2.客户需求悄然转变:从“能跑起来”到“能长期满载运行”

过去的数据中心项目,关注点集中在“设备是否正常启动”“冷却系统能否带走热量”这类基础保障。但如今,客户更关心的是:我的算力卡能否7×24小时稳定输出?是否存在因温度波动引发的频繁降频?机柜资源是否因散热瓶颈而无法充分利用?

这些问题的背后,反映出一个根本性转变:热管理不再只是配套支持系统,而是直接影响算力兑现效率与投资回报率的核心基础设施。

3.政策与能效双重压力加速液冷升级进程

“东数西算”工程持续推进,叠加各地对PUE(电源使用效率)指标的严控,使得绿色低碳成为数据中心建设的刚性要求。与此同时,存量机房面临扩容难、电力紧张、散热不足等问题,亟需通过高效热管理手段实现资源再盘活。

二、客户的真实困境:不是没做液冷,而是液冷“不够用”

1.单相液冷仍在服役,但面对高密度场景日益吃力

目前,许多数据中心已部署单相液冷方案,确实解决了初期散热难题。然而在实际运行中,技术团队普遍反馈:虽然平均温度可控,但局部热点频发,芯片表面温差大,动态负载下温度波动剧烈——这直接导致AI训练任务中断、推理延迟增加。

根本原因在于,单相液冷依赖液体显热吸收热量,传热能力受限于流量与温升。当热流密度超过一定阈值(通常为15–20W/cm²),系统余量迅速收窄,即便加大泵速或提高流量,也无法有效抑制瞬态热峰。

2.改造项目面临“停不起、改不动”的现实困局

对于大量已投运的数据中心而言,全面更换冷却架构成本高昂且风险巨大。许多项目希望采用“不停机改造”模式,但在现有空间、管路布局和供电条件下,新增复杂的冷却系统往往难以实施。客户需要的不是推倒重来,而是一条平滑过渡、低风险兑现的升级路径。

3.运维复杂度上升,平台能力成为隐形瓶颈

即使硬件完成升级,若缺乏统一的监控与管理平台,仍会导致“设备在线≠被管理”的尴尬局面。技术人员每天疲于排查告警、手动调节参数,无法实现真正的预测性维护和能效优化。热管理系统的价值,最终必须落在可管、可控、可运营的闭环之上。

三、真正的破局之道:从“散热”走向“控温”,构建系统级热管理能力

1.两相液冷的本质优势:利用相变潜热实现高效带热与温度稳定

与单相液冷不同,两相液冷通过工质在微通道冷板内发生液-气相变,吸收大量相变潜热,从而大幅提升单位体积的换热效率。更重要的是,相变过程发生在恒定沸点温度下,天然具备“温度钳位”特性,可将芯片工作区温度牢牢锁定在最佳运行区间。

实验数据表明,在同等热负荷下,两相液冷系统的芯片表面最大温差可控制在±2℃以内,远优于单相系统的±8℃以上波动。这意味着GPU/CPU能够长时间处于高频稳定状态,显著减少热降频事件,提升整体算力利用率。

2.不止于冷板:芯片级、机柜级、站级三层能力协同贯通

先进的热管理方案,绝非仅靠一块高性能冷板就能解决。真正的竞争力体现在系统集成能力——

芯片级:采用泵驱式两相冷板,紧贴高功耗元件,实现第一道热阻突破;

机柜级:部署后置式两相液冷面板,兼容标准机架,支持热插拔与不停机改造;

站级:配套集成冷站与智能CDU,动态调节压力与流量,确保全系统协同运行。

这套“点-线-面”结合的架构,不仅适用于新建超高密度智算中心,更能为存量机房提供模块化、渐进式升级路径。

3.软件定义硬件:物联网平台让热管理走向智能运维

所有硬件能力的最终放大,都依赖于底层物联网SaaS平台的支持。该平台实现了三大核心功能——

实时采集每个冷板、传感器、泵组的运行数据;

构建数字孪生模型,可视化呈现温度场分布与流动状态;

基于AI算法生成节能策略,自动调节冷却参数并预警潜在故障。

这意味着热管理不再是被动响应的“消防队”,而是主动干预的“运行质量管家”。

四、这不是一次技术迭代,而是一次系统重构

1.新建市场看上限,改造市场看兑现,唯有双轨能力才能覆盖全生命周期

面向未来三年,新建智算中心追求的是极致密度与扩展弹性;而更广阔的存量市场,则迫切需要一条低风险、快交付、见效快的改造路线。能够同时服务于两种需求的方案,才具备真正的行业穿透力。

例如,在某区域数据中心改造案例中,通过在原有风冷机柜加装后液冷面板,并接入统一平台进行集中调控,实现了单机柜从8kW向25kW的平滑跃迁,PUE下降至1.2以下,且全程无需中断业务。

2.精准控温=更高的算力兑现率=更低的单位算力成本

最终衡量热管理价值的标准,不应是“温度降了多少度”,而是“系统稳定运行的时间提升了多少”“单位能耗产出的AI训练Token增加了多少”。

当控温精度提高,芯片无需预留过大安全裕量,即可长期运行在标称功耗区间,直接转化为更高的任务吞吐量与资源利用率。这是一种从“保运行”到“提效能”的质变飞跃。

方法论高于产品:构建以“物联网平台+精准节能”为底座的能力体系。

这种能力的复利效应正在显现——在一个领域积累的平台经验,可快速迁移至另一个场景,形成跨行业的解决方案延展性。

技术团队真正需要的,不是一个更快的风扇或更冷的液体,而是一套能持续保障算力稳定释放的系统方法。两相液冷正是这一系统方法的核心载体——它不止于散热,更通过精准控温将算力潜能充分兑现。这场关于热管理的深层进化,才刚刚开始。

免责声明:本内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,广告内容仅供读者参考,如有疑问请联系:0564-3996046。