在数字经济蓬勃发展的当下,其占GDP的比重已突破46%,意味着全球超三分之一的经济活动实现了数字化转型。这一进程中,AI算力需求呈现出惊人的增长态势,犹如三级跳般迅猛:ChatGPT的爆火使得智能算力需求年均增长高达76%,而Sora视频生成模型更是将GPU集群功耗推至单机柜50kW的极限。如此巨大的算力需求,让传统风冷方案逐渐走向淘汰的边缘。

打开网易新闻 查看精彩图片

回溯历史,1946年第一台通用计算机ENIAC问世,彼时的数据中心不过是配备基本通风设备的“铁皮柜”。直至2005年,中美同步出台数据中心国际标准,风冷技术伴随着精密空调系统才真正走向成熟。然而,时光流转至2024年,超算中心单机柜功耗已超过50台家用空调的总和,液冷技术顺势接过散热革命的接力棒,开启新的篇章。

在这场始于机房角落的温度革命中,AI芯片性能的不断提升,让液冷技术成为解锁下一代计算奇点的关键钥匙。

打开网易新闻 查看精彩图片

一、服务器散热:高昂的成本之痛

服务器散热究竟要耗费多少资金?或许有人对此不以为然,认为不过是给服务器降降温,能花多少钱?实际上,衡量数据中心能效有一个关键指标——电能利用效率PUE(Power Usage Effectiveness)。PUE是指数据中心总耗电与IT设备耗电的比值,其值越小,越接近1,表明能效水平越高。计算公式为:PUE = 数据中心总耗电 ÷ IT设备耗电。

据中国信息通信研究院数据,2023年我国数据中心平均PUE为1.48,全球平均PUE为1.58。这意味着数据中心运行用100度电,其他环节就要损耗掉58度电。以PUE为1.5的数据中心为例,IT设备耗能约占67%,制冷系统约占27%,供配电系统约占5%,照明及其它约占1%。由此可见,服务器散热是限制PUE提升的关键因素。

2023年我国算力中心总用电量约1500亿千瓦时,按照PUE等于1.48计算,用于散热的电量就达400亿度,约等于三峡水电站半年的发电量。

打开网易新闻 查看精彩图片

二、自然冷源:绿色节能的降温之道

受传统硬件、现有设置及服务等级协议(SLA)的限制,现有数据中心通常需将温度冷却至18 - 21°C(64 - 69°F),因此一年四季都需制冷。而在冬季及过渡季节,室外温度低于室内温度时,自然界蕴含着丰富的冷源。合理开发利用自然冷源,是降低数据中心能耗、降低机房PUE的关键举措。

自然冷却方式多样,主要包括空气侧自然冷却技术、水侧自然冷却技术、氟侧自然冷却技术以及二氧化碳载冷技术等,其中空气侧和水侧自然冷却技术应用较为广泛。

新风直接自然冷却是最直接的方式,通过新风系统将室外冷风引入数据中心,减少换热流程。目前,该技术已在部分地区得到应用,如雅虎在纽约地区的数据中心采用全新风自然冷却技术,PUE可达1.08;腾讯贵安七星数据中心利用贵州溶洞中的自然风降温,极限PUE将达1.1左右。

直接水侧自然冷却技术也在稳步推广。该系统直接抽取湖、海水等自然低温水,将其引入数据中心进行冷却,且不影响内部环境,能最大化利用自然冷源,节能效益显著。谷歌在芬兰的数据中心依托芬兰湾的地理优势,利用海水冷却,年均PUE约为1.14;微软的“纳提克”海底数据中心研究计划,将服务器部署在钢制容器内沉入海底,利用海水冷却以降低能耗。

自然冷源的选择需考虑数据中心所在地的气候及温湿度条件等因素。我国华北、西北及东北等地区,室外气温低于10℃的天数占比较大,“东数西算”规划布局的十个国家枢纽节点集群所在区域在气候环境上具有优势,利用当地自然冷源既能节省机械制冷能耗,又因自然冷源供给充足、无污染,属于绿色冷源。

三、液冷散热:高效节能的新兴之选

然而,并非所有公司都能将数据中心建在四季凉爽或能利用自然冷源的地方。例如,2023年我国华南和华中地区数据中心PUE均超过1.5,远高于全国平均水平。为降低PUE,提高散热效率势在必行,从风冷散热转向液冷散热成为典型且有效的做法。

风冷散热通过强制对流和空调系统将服务器等设备产生的热量排出数据中心,主要依赖空气作为冷却介质。但空气导热和吸热能力较差,尽管其获取容易、流动性好,但相比之下,水的吸热和导热性能远超空气,约为空气的20倍,若采用导热性更好的液体材料,导热效率还能大幅提升。因此,液冷散热比风冷更高效、更省电。

液冷技术以高比热容的液体为热量传输媒介,直接或间接接触发热器件,缩短送风距离,传热路径短,换热效率高,是支撑高密度部署、应对节能挑战的重要途径。目前,冷板式液冷和浸没式液冷是数据中心行业应用的两种主流液冷技术,此外还有喷淋式液冷等技术。

打开网易新闻 查看精彩图片

1. 冷板式液冷:成熟且灵活的解决方案

冷板式液冷技术已形成相对成熟的方案。作为非接触式液冷,它通过液冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体。该技术对服务器芯片组件及附属部件改动较小,主要通过加装液冷模块,采用集中式或分布式CDU供液、Manifold分液,对芯片、内存等部件进行精准制冷,可分为部分冷板式、全冷板式以及冷板背门式。

  • 部分冷板式:仅在发热部件(如CPU)上安装冷板,冷却液在冷板内流动带走热量。其结构简单,易于部署,适用于现有服务器改造,兼容性和灵活性强,但仅对局部部件散热,整体散热效果有限,需额外风冷系统辅助。
  • 全冷板式:在服务器所有发热部件上安装冷板,实现全覆盖散热,散热效果优于局部冷板式,适用于高功率密度场景,但系统复杂、成本高,对服务器设计要求高。
  • 冷板背门式:在服务器机柜后门安装液冷散热模块,通过冷却液带走热量。无需改造服务器,部署灵活,可在原有设备基础上升级,适用于中高功率密度场景,但散热效率一般,且需额外管道和泵系统。

打开网易新闻 查看精彩图片

2. 浸没式液冷:高效静音的散热先锋

浸没式液冷是将发热电子元器件直接浸没在非导电冷却工质中,通过冷却工质循环流动散热的接触式冷却技术,可实现100%液体冷却,散热节能优势明显,且几乎无噪音。根据冷却液是否发生相变,分为单相和相变两种类型。

  • 单相浸没冷却(SPIC):冷却剂仅以液态形式传热,通过与电子元件直接接触进行热交换,过程中冷却液仅温度变化,无相态转变,依靠物质显热变化传递热量。相较于两相浸没式冷却,SPIC系统换热特性略差,但在流动稳定性、投资成本、安全性和可维护性方面具有优势,更适合大规模商业应用。
  • 相变浸没式液冷:以低沸点液体(如氟化液等)作为传热介质,将发热电子元件直接浸没于冷却液中,通过与电子元件直接接触进行热交换。过程中冷却液不仅温度变化,相态也会改变,主要依靠物质潜热传递热量。因冷却液相变潜热极大,该技术换热能力更强,可满足超高热流密度服务器散热需求,显著提升数据中心能效水平。
    相变浸没式液冷系统主要由冷却介质、密封浸没腔体、液冷连接系统、液冷换热模块(CDM)和室外散热设备组成。服务器置于密封浸没腔中,发热电子元器件浸没在冷却介质中,运行时产生热量被冷却介质吸收,冷却液吸收热量后从液态转化为气态带走热量。气态冷却介质经收集回到CDM的冷凝器中,被冷却水冷凝,热量从蒸汽传递给冷却水,再经一次侧冷却塔散发到室外,完成热量传递。二次侧冷却介质通过加热—沸腾—冷凝—回流循环,系统温度恒定在冷却液沸点,低于发热电子元器件最高正常工作温度,保障服务器运行稳定。

打开网易新闻 查看精彩图片

3. 喷淋式液冷:精准散热的创新之举

喷淋式液冷通过将冷却液喷淋在散热元件上,直接带走热量并排放至IDC外部环境。喷淋液体可完全覆盖服务器发热器件,且可根据不同发热器件功率密度,对喷淋板上的液孔进行精准开孔设计,满足不同功率发热器件的散热需求。

四、未来展望:突破与变革的猜想

算力攀升推动数据中心液冷市场需求逐年增长,业内多条液冷技术路线快速发展,针对不同应用场景各具优势。然而,随着液冷技术规模化应用,各类问题也逐渐显现。如冷板式液冷水基工质泄漏导致设备短路烧毁;单相浸没式液冷散热能力受液体流速约束,无法满足更高功耗CPU/GPU的散热需求;液冷系统制冷量未随负载变化及时调控,节能收益不明显;现阶段液冷数据中心建设成本高等。这些问题在一定程度上制约了液冷技术在数据中心领域的应用。

随着人工智能和高性能计算的爆发式增长,数据中心正经历一场静默而深刻的散热革命。以下是对未来发展的三个突破性猜想与发展方向:

1. 仿生式智慧液冷网络

未来或许会出现类似人体循环系统的“湿计算机”。微软研究院已在研发具有形状记忆合金特性的微流体管路,这些直径不足1毫米的智能管道能根据芯片温度自主收缩膨胀,实现精准散热,如同血流调控一般。混合量子 - 经典算法将实时解析大量热力学方程,使大量冷却液的流动轨迹可精确预测到微米级。

2. 热熵货币化革命

谷歌DeepMind与伦敦证券交易所合作的“ThermoCoin”项目为我们展现了未来图景:数据中心的余热将通过区块链确权,转化为可交易的数字资产。浸没式液冷系统中的相变潜热不再被浪费,而是成为驱动边缘计算节点的“热能蓄电池”。

3. 纳米冰相变技术

MIT近期在《自然・能源》披露的二维冰技术可能改写散热规则。当2.7纳米厚的水分子层在石墨烯表面形成规则晶格,其导热系数跃升至5300 W/m・K,远超当前商用液冷剂的200倍。更革命性的是,这种“量子冰”在电场调控下可实现固态 - 超流态瞬间切换,使单相液冷系统同时具备蒸发散热的相变优势。

打开网易新闻 查看精彩图片

五、结语

在AI算力需求每18个月翻番的背景下,新一代数据中心冷却技术已超越单纯的热力学范畴,成为关乎数字经济底座安全的国家战略能力。构建“材料创新 - 系统优化 - 标准引领”三位一体的发展模式,将成为我们抢占数字制高点的关键战场。