大模型AI在整个2024年掀起了一波又一波的热潮。特别是OpenAI o1模型,通过推理计算变革提升复杂任务处理能力,推动AI向高阶智能进化,而中国大模型突出高效计算,部分性能指标堪比美国模型,成为全球AI市场的重要生力军。随着多家超级云和特斯拉等超级玩家“All in”大模型AI,持续爆发的大模型AI,将引发AI应用的爆发。
随着大模型AI“大力出奇迹”走向一个又一个新高,服务器等企业级硬件和数据中心、智算中心等企业IT基建正面临全面重构。NVIDIA在2024年发布的GB200超级GPU和新一代液冷机架GB200 NVL72将液冷技术推到了全球大模型AI产业的风口浪尖。在NVIDIA看来,液冷是未来顶级智算中心必备的“底盘”,甚至是企业数据中心必备的“底盘”。
就在“液冷”被热炒的2024年,业界专家指出“液冷正在被过度渲染,甚至已经卷了起来。”2024年11月,联想发布面向本地用户的“联想问天海神”液冷品牌。联想中国基础设施业务群服务器产品部总经理周韬强调,源于HPC的液冷技术在近年来向AI服务器普及,未来将成为智算基建以及企业数据中心的必备“底盘”。十多年来,联想海神液冷一直厚积薄发,已经在全球部署了7万套,而“联想问天海神”将为中国智算产业,劈开红海、打开蓝海。
下一代智算基建的必选
液冷并不是新技术。液冷技术早在大型主机时代就已经开始了应用,1964年的IBM System/360大型主机就采用了风冷和液冷的混合冷却方案,进入21世纪液冷更在HPC领域得到了广泛应用。
2018年“液冷”被收录到《计算机科学技术名词 》(第三版)中,定义为“使用流动液体将计算机内部元器件产生的热量传递到计算机外,以保证计算机工作在安全温度范围内的一种冷却方法”。
随着大模型AI的爆发,AI服务器越来越向高密度、高功耗的方向发展。根据《联想问天海神液冷方案白皮书》,CPU功耗约占整个服务器的60%-70%,而对于更高功耗的GPU,在训练服务器中单服务器内多颗大功耗GPU可占整体服务器的80%-90%功耗。
无论CPU还是GPU功耗,均快速攀升:单颗高性能CPU功耗,已由几年前的200W攀升到600W;单颗高性能GPU功耗,更是飙升至1200W以上,已经突破了传统风冷的极限。而服务器中其他部件,如内存、存储、网络等芯片,也都在同步提升功耗,使得服务器整机功耗进一步上升。
AI数据中心/智算中心也在向更高密度、更高功耗方向发展。2024年特斯拉4个月就建成了十万卡GPU数据中心,并预计扩展到20万卡,轰动了全世界。在特斯拉之后,OpenAI意图在2025年也建成十万卡GPU数据中心,微软、Meta等科技巨头都在兴建十万卡GPU数据中心。
在中国,互联网和科技巨头也在争建十万卡国产算力卡数据中心。对于十万卡数据中心来说,用电量估算即相当于中型城市的六分之一、小型城镇的全部用电量。
在联想中国基础设施业务群战略总监黄山看来,在中国市场需要使用国产算力卡进行大模型训练的趋势下,下一代国产算力卡的用电量要比当前一代高两到三倍,这让液冷成为了新建智算中心的必选项而非可选项。
无论对于超万卡甚至十万卡智算中心来说,传统的风冷都将走到极限而无法胜任智算中心的冷却需求,再加上政策大力推动绿色低碳节能,传统风冷数据中心无法达成低PUE要求,这些都让液冷成为了下一代智算基建的必备“底盘”。
积极引入本地研发,发布面向中国市场的液冷品牌与方案
联想液冷技术最早源于IBM,在近二十年的技术演进中,结合超过七万节点的液冷服务器集群交付项目经验,锤炼和沉淀出联想液冷方案最佳实践,融入到联想企业级液冷产品、方案和服务中。特别是早在2012年就推出了独特的温水液冷技术,将进水温度控制在最高50度,出水温度58度左右,有效提升了整个计算系统的性能。
面向全球市场,联想Neptune液冷系统已经发展到第六代,涵盖全面的液冷技术和方案。面向中国市场的技术生态环境,2024年11月,联想发布了面向中国本地用户的“联想问天海神”液冷品牌,该品牌更加聚焦国内市场,旨在为本土客户提供符合国家标准、匹配中国数据中心设计、兼容本地处理器和软件生态的液冷解决方案。
为什么要对中国市场推出一个单独的液冷品牌?
联想中国基础设施业务群战略总监黄山表示,中国市场的液冷需求和解决方案与全球市场有着诸多不同之处。例如;国产GPU和加速卡独立于全球GPU和加速卡生态之外,是两套并行的技术体系,相应的液冷方案也需要与国产系统配套设计;而在中国不同地区的液冷方案也各有独特性,比如新疆与上海的液冷方面就并不相同,而要因地制宜……在意识到本地客户的需求独特性后,联想在传承全球领先技术的同时,针对中国市场的技术生态和地理环境等特点,推出了独立的液冷品牌。
联想中国基础设施业务群服务器研发总监李鑫介绍,联想问天海神液冷技术与方案从多个方面针对本地市场进行了创新:降低液冷方案成本,例如在冷板方向的散热器采用铝替换原先的铜材料以及结合3D Vapor Chamber三维相变均温技术,开发了3D VC铝冷板技术,具有均温性好、热阻值和流阻值较低、价格较铜冷板低等优势;内部分集水器的设计,依照不同部件功耗,实现共用一套manifold模具,主要是调整对应进出水口的开孔大小,满足不同功耗部件的进液流量的需求;降低冷却液的成本,包括采用更低成本的液体,例如醚或汽油等……具体在《联想问天海神液冷方案白皮书液冷技术分册》中,有更详细的介绍。
目前,联想问天海神液冷技术覆盖了风液冷混合、全液冷、整机柜液冷、单相浸没式液冷等主流液冷技术,这些方案都针对中国市场进行了调整、优化以及创新。
作为当前液冷的主流,在冷板液冷方向,联想已规模量产冷板液冷服务器及整机柜产品,全面覆盖高功耗部件的散热方案,同时积极推动低成本冷板方案的应用,实现风液同价目标,此外还已着手研发相变冷板,积极应对未来更高功耗芯片的需求。
在单相浸没液冷方面,联想与清华大学等高校和科研单位合作,探索适合本地市场的技术创新,例如在单相浸没液冷方向,联想与清华大学开展深入技术预研合作,研发流场优化方案及高性能散热器,使冷却液的冷却效率最大化,获得最优PUE,同时在冷却液、Tank设计方案、CDU等各方面探索低成本方案,推动浸没液冷的快速普及。
在相变浸没液冷方向,联想快速开展技术积累,计划于2025年发布相变浸没方案,为高速增长的系统散热功耗需求准备好解决方案,为更冷静、更可靠的服务器及数据中心产品提供有力支持。联想还专门在天津建立了浸没式液冷实验室,通过真实场景的实验获得可靠数据,以推动浸没式液冷的研发。
联想问天海神液冷技术在中国客户的上万台液冷服务器验证中,三年来未发生任何漏液事件。联想问天海神液冷方案通过冷板漏液感应线,实时监测服务器机柜内冷板表面及链接管道的液体泄漏问题并提前发出预警,从而显著降低业务中断,大幅提升系统稳定性和可靠性。
开启下一程
根据IDC发布的《中国半年度液冷服务器市场(2024上半年)跟踪》报告:中国液冷服务器市场在2024上半年继续保持快速增长,市场规模达到12.6亿美元(89.6亿元人民币),与2023年同期相比增长98.3%。IDC预计,2023-2028年,中国液冷服务器市场年复合增长率将达到47.6%,2028年市场规模将达到102亿美元。
2024年11月,联想推出了《联想问天海神液冷方案白皮书》一套三本,分别是技术分册、服务分册和质量安全保障分册,详细阐述了联想液冷的设计方法论和技术与实践细节,为业界揭开了液冷的“神秘面纱”。
联想企业级液冷全景图包括咨询与服务、液冷基础设施、液冷数据中心配套和交付模式,展示了联想不仅可以提供全方位的解决方案,更能从众多的液冷技术、部件中择优为用户打造可靠系统,确保企业智算基建的下一程。
联想中国基础设施业务群服务器研发总监李鑫强调《联想问天海神液冷方案白皮书》三册主要为了让业界了解联想液冷业务背后的思考,例如:冷板式液冷的设计方法论、液流速度建议、液体质量标准以如何保证长期可靠性等,在保证长期可靠性方面则包括定期检测液体杂质、PH值变化以及相应处理、异样微生物检查以及相应处理等等。
《联想问天海神液冷方案白皮书》三册也披露了联想液冷技术的细节,例如:联想在出货前,冷板组件执行100%干燥并监测管路内部湿度、严格保证出货质量,管路充氮、预打2个大气压氮气,保证冷板组件管路内部维持在无氧环境无细菌滋生;创新性地采用成本低、无污染的去离子水作为热量传输介质,通过出色的并行水回路设计及微通道散热器设计,可降低CPU、GPU等部件的性能抖动,Linpack效率可提升5%~10%;等等。
随着联想问天海神液冷品牌的发布,联想还带来了重磅升级的联想问天WA7880a G3、联想ThinkSystem SC750 V4 Neptune、联想ThinkSystem SD650 V3、联想问天WR5220 G5等明星产品,这些产品都可部署联想问天海神液冷方案,覆盖了从通用计算、智能计算到科学计算的全场景算力。
其中,针对智能计算场景的联想问天WA7880a G3聚焦于多元算力、灵活配置与节能高效三大方向。作为国产首款支持OAM 2.0模组的服务器,WA7880a G3可兼容国内主流GPU厂商的OAM标准GPU;在高效节能方面,该服务器通过部署联想问天海神液冷方案,结合独立风道设计,有效降低了运行时能耗与热量积聚,可为用户打造既环保又高效的AI算力中心。
整体来看:面向AI的液冷市场才刚刚启动,但液冷已经是下一代智算基建的必选。尽管今天浸没式液冷中的浸没液仍处于高价位,但如果在不久的将来实现了浸没液成本打5折甚至1折,必将极大缩短浸没式液冷的普及时间,届时将支持更高密度的服务器、机柜和AI数据中心/智算中心。随着液冷技术的普及和普惠,我们将能够重新想像智算基建的未来,在大模型和国产技术体系的持续发展中,打开中国大模型AI产业的新蓝海。(文/宁川)
热门跟贴