全文约8000字,预计阅读时间: 20 分钟
为什么风冷已经走到尽头
上一篇文章聊AI算力,重点在GPU、光模块、互联架构。中间提到一点关于风冷到液冷的转变。我们常常说手机太烫了,电脑一玩游戏就发热。
因为高频率工作的时候,芯片啊什么的都会发热。一旦发热,就会影响性能,游戏变卡,手机重启。
那数据中心中,这些芯片跑起来,热量怎么散?
一块H100满载功耗700W,8块就是5600W,相当于一台空调的制冷量塞进一个机箱。GB200 NVL72整柜功耗125-130千瓦,GB300 Superchip单颗TDP突破3000W,Rubin平台直奔200kW+。到了这个量级,风冷已经物理上扛不住了。
具体数字来看,风冷的有效散热极限是单机柜50千瓦左右。超过这个数字,风扇转速再怎么优化、风道再怎么设计,边际收益都趋近于零。
为什么? 这是物理学本身的限制。
空气的比热容是1.005kJ/(kg·K),密度1.18kg/m³,算下来体积热容约1.19kJ/(m³·K)。水的比热容是4.18kJ/(kg·K),密度1000kg/m³,体积热容是4180kJ/(m³·K)。
水的体积热容是空气的约3525倍。
同样散掉100瓦热量,空气需要0.084立方米/秒的流量,水只需要0.000024立方米/秒。差了约3500倍。
这是物理常数层面的代差,就像用自行车参加赛车比赛,训练再刻苦也没用。
热导率也是同样道理,水的热导率是0.6W/(m·K),空气是0.026W/(m·K),相差23倍。热量从发热源传到空气再排出去,水冷这条路短了23倍。
2026年的AI服务器,GB200 NVL72已经125kW/柜,GB300要到150kW+,Rubin直接200kW+。这些数字意味意味着每建一个新的大规模AI集群,就必须用液冷。
政策方面, 2025年底至2026年初国家层面拟定的《智能算力中心建设规范》相关草案,以及部分省市的地方产业执行文件。例如,江苏省出台的算力强基政策中明确设立了「到2026年制冷PUE低于1.15」的预期目标。在此之前,工信部《新型数据中心发展三年行动计划》等文件将全国枢纽节点的数据中心PUE红线设定在1.25至1.3之间。监管部门针对2026年节点收紧了能耗指标。
在高密度智算场景与常规气候区域的叠加条件下,风冷PUE的实测极限停留在1.3至1.4。所以,政策红线倒逼液冷渗透率快速提升。
单相冷板式液冷
液冷方案里,工程最成熟、商用最快的是冷板式。
原理是金属冷板贴在芯片背面,冷却液流过冷板内部的通道,把热量带走。芯片的热量先通过导热硅脂传到冷板,再由冷板里的水流带走。这和发动机水冷是一个逻辑。
当前单相冷板技术的工程应用上限通常在150kWh,是风冷50kW的3倍。PUE可以从风冷的1.3-1.4降到1.15左右。H100机柜用液冷,PUE 1.1,比风冷降低27%。
但问题是目前这个散热能力仍然不够
GB300是150kW,Rubin直接200kW+,已经超过了能力上限。就算没超过上限,单相冷板式液冷自身也有三个物理限制在影响它的发展:
第一个限制:界面热阻
冷板和芯片之间有一层导热硅脂(Thermal Interface Material,TIM),这是不可避免的。硅脂的导热系数约5-10W/(m·K),远低于金属和水的导热系数。热量从芯片核心传导到冷板,必须穿过这个层。
这不仅仅是效率差一点的问题,更麻烦的是,硅脂会老化。长期高温工作后,导热效率会逐年下降。数据中心的设计寿命是10-15年,但硅脂的性能衰减可能在第3-5年就开始明显。运维必须定期更换,拆机检修成本不低。
不过,现在有一个方向是液态金属TIM。纯铟片或铟/银合金构成的相变化金属片,导热系数高达30-50W/(m·K),是传统硅脂的5-10倍,且物理化学性能稳定,无泵出效应,高温环境下长期工作不衰减。
液态金属TIM如果大规模商用,单相冷板的散热天花板和寿命周期都可能向后推延,从而延迟两相冷板和浸没式的渗透节奏。
当前液态金属的成本和工艺兼容性仍是瓶颈,但这是判断单相冷板「走到尽头」时间点的关键变量。
第二个限制:对流换热极限
冷板内部的冷却液通过对流把热量带走,对流换热系数有个理论上限,约50000W/m²·K。
这个数字看起来很大,但芯片的发热密度更高。
芯片热流密度已经超过120W/cm²,换算成单位面积就是1200000W/m²。对流换热系数50000W/m²·K,
工程师能做的,是在冷板内部做文章。把通道做窄、做密、做表面处理,让冷却液在单位体积内吸收更多热量。这就是「微通道冷板」的技术方向。
第三个限制:压降与汽蚀
微通道的好处是换热效率高,但代价是冷却液流动的阻力急剧增大。通道越窄,液体越难流过去,压降呈指数级上升。
实测数据是微通道冷板的压降可以达到200-300kPa。压降大,就需要更大功率的泵来推动液体,增加能耗和系统复杂度。
另外一个是 汽蚀 冷却液在通过狭窄通道时,局部流速很高、压力很低,如果压力低于水的饱和蒸汽压,水会瞬间汽化,形成气泡。这个会形成两个影响, 气泡破裂时产生的高压冲击波会冲刷冷板内壁,时间长了金属表面会形成蜂窝状腐蚀。更严重的是,气泡会阻断局部热传递,导致局部热点温度急剧上升
流体在极窄通道内高负荷运行,摩擦阻力急剧上升与局部压力失衡是物理必然。这些现象在工程界有成熟的对抗手段,配置大功率液冷泵、维持高水平的系统基础水压、优化内部流道几何倒角。
因为对抗压降与汽蚀现象需要持续增加水泵机械能耗、提升管路系统耐压材料标准并引入复杂的流体压力监控机制,所以这两个物理问题在现实中直接转化为单相冷板系统不断攀升的总体拥有成本(TCO)。当这种为克服工程挑战而付出的叠加成本,超过两相液冷或浸没式液冷的建设与运营投入时,单相冷板技术就会达到其商业应用极限。
两相冷板式液冷
两相冷板式液冷是面向2026-2027年极高密度算力场景的定制化演进方案。
两相是什么概念?冷却液在冷板内部发生相变,从液体变成气体,再从气体变回液体。整个换热过程不靠显热传递(液体温度升高带走的热量),而是靠潜热(相变过程吸收/释放的热量)。
水烧开到沸腾,100℃的水变成100℃的水蒸气,吸收的热量是同质量水温度升高100℃所需热量的5.4倍。相变能携带的热量,比单纯升温多一到两个数量级。
两相冷板式液冷的核心指标「临界热流密度」(Critical Heat Flux,CHF)是多少?实测385W/cm²。这个数字比单相冷板的极限高了将近7倍,可以覆盖2kW级芯片的散热需求。
GB300 Superchip TDP突破3000W,VR300 TDP预计3600W,两相冷板刚好是它的工程边界解。
当GB300 Superchip与未来的VR300 TDP突破3000W甚至3600W时,两相冷板提供了技术层面的解法。其PUE可降至1.08-1.12。但这套系统的初始建设成本高昂,且面临以下严苛的工程限制:
一、膜态沸腾:超过CHF即失控
超过临界热流密度CHF之后,会发生膜态沸腾。正常沸腾是液体直接接触高温表面,在表面产生气泡,气泡脱离后被冷却液带走。膜态沸腾是气体在高温表面形成一层连续的气膜,把液体隔在外面。气膜的热导率是液体的几十分之一,传热效率急剧下降,表面温度可能从100℃跳到几百度。
这不只影响散热效率,还可能直接烧毁芯片。所以两相冷板的设计必须留足安全裕度,实际能稳定使用的热流密度要控制在CHF的70%以内,也就是270W/cm²左右。
二、冷却液选择极窄
水无法作为两相冷板的冷却介质。因为常压下水的沸点高达100℃,系统必须维持极高的真空度才能让水在芯片安全工作温度(约60-80℃)内沸腾,所以维持深负压带来的泄漏风险与工程代价直接排除了水的应用可能。工程上只能选择低沸点的特种电子氟化液。这类液体必须同时满足沸点适中、环保合规、绝缘与低腐蚀性,候选范围极窄且成本高昂。
三、两相流动稳定性
气液两相混合流动时, 流型会随芯片负载的剧烈波动而频繁切换,泡状流、弹状流、环状流、雾状流,不同流型的换热特性差异巨大。
在宽工况范围内(比如芯片负载从10%到100%剧烈波动)保持稳定换热,是控制系统设计的难点。
浸没式液冷
当单相冷板不够用、两相冷板也快到顶的时候,工程师的思路是,干脆把整个服务器泡进冷却液里。
这是浸没式液冷。
最大的好处是取消了所有物理隔离。芯片、PCB、内存全部浸在冷却液里,热量直接从发热源传到冷却液,没有任何界面热阻、边界层热阻。散热效率的上限不再是工程设计的妥协,是冷却液本身的导热系数和比热容。
单相浸没式的散热上限约130kW+/柜,PUE 1.05-1.1。两相浸没式更激进,冷却液沸腾后蒸汽在冷凝器里液化回流,散热上限可以达到400kW+/柜(实验室数据),PUE低至1.03。
理论上,这是当前技术路线里散热能力最强的方案。
但为什么没有大规模铺开?因为有三个核心工程局限:
一、池沸腾物理限制带来的定制封装成本
两相浸没式液冷在光滑芯片表面,CHF只有10-20W/cm²。对比一下,单相冷板式50-80W/cm²,两相冷板式385W/cm²,两相浸没式反而只有10-20W/cm²。
为什么?因为气泡在光滑垂直表面很难脱离。芯片表面产生的气泡会附着在表面,合并成一层气膜,阻断冷却液接触,就是前面说的膜态沸腾。
两相冷板有强制对流帮忙把气泡带走,浸没式没有这个外力。
工程师必须在芯片表面加工微结构(如微针、微槽)以促进气泡脱离。这种表面强化工艺直接推高了芯片封装的定制成本。在大尺寸芯片(面积>800mm²)上,气泡脱离路径加长会导致沸腾不均匀,局部热点控制难度极高。
这个工艺是额外的成本,而且结构设计需要针对具体芯片封装定制。
二、特种冷却介质造成的高昂初始建设成本
两相浸没式系统依赖低沸点氟化液作为冷却介质。
3M的Novec 7100沸点61℃,介电常数低(可以浸泡电子元件不短路),臭氧消耗潜值为零,全球变暖潜值低。性能参数完美,但3M在2023年宣布停产。
氟化液国产替代的玩家包括巨化股份(国内市占35%,一期产能1000吨/年,规划8000吨)、东阳光、龙蟠科技。八亿时空也在做。
价格方面,3M停产前FC-770和Novec-7200售价分别高达64万元/吨和51万元/吨。国产替代释放后价格大幅回落,当前核心采购均价仍在20万元/吨左右。即便考虑远期产能全面释放后的极低成本区间,短期内也难以跌破10万元/吨。
浸没式液冷的冷却液价值量占比近60%。一个机柜需要多少冷却液?估算约500-1000升,氟化液密度约1.6-1.8kg/L,折合800-1800kg。按当前20万元/吨的采购均价计算,光是冷却液,一个机柜就是16-36万元。加上配套的冷凝器、密封系统、泵、阀,整个方案成本比冷板式高2-3倍。
三、 物理形态导致的极低运维效率
服务器出问题了怎么办?冷板式可以直接拔出来更换,浸没式必须把整个机箱从冷却液里捞出来。
排液一次需要4-6小时,期间服务器不能运行。这对于需要24小时在线的AI训练集群来说,是有极大影响的。
氟化液还会蒸发。沸腾的冷却液蒸汽需要冷凝器回收,排风系统要处理。密封要求也高,氟化液蒸气吸入对人体有害。
综合来看,浸没式液冷的定位是极致散热场景的终极方案,但受制于成本和运维,只适合超大规模、高功率密度的特定场景,比如超级计算机、或者大型AI云厂商的核心训练集群。
它的渗透率提升,需要等待氟化液国产替代带来的成本下降,以及模块化设计的成熟。业内预计,国产工质成本降至5万元/吨以下(约当前采购均价的1/4),浸没式的经济性才能大规模铺开。这个时间窗口估计在2028-2029年。
芯片级微流控
当前所有液冷方案,不管冷板还是浸没,都有一个共同特点,冷却液和芯片之间有物理隔离。
芯片封装在PCB上,冷却系统贴在封装外壳外面,热量必须穿过封装、硅脂(或焊料)、金属盖板才能传到冷却液。每一层都是热阻。
芯片级微流控的思路是全面移除这个宏观隔离层。
怎么做?在芯片背面蚀刻微通道,宽度50-100微米,深度100-200微米,冷却液直接流经芯片内部,「芯片即散热器」。
这个方案实测的散热能力可以做到250W/cm², 虽然这一绝对数值未超越两相冷板的理论极限,但因为冷却介质直接接触发热源,所以其实测热点温度比传统冷板系统低65℃。对于3nm以下工艺、功率密度极高的AI芯片而言,这种极致的结温控制能力是维持算力稳定输出的关键 。
尽管学术界已有20年研究基础,这项技术未能实现商业量产的原因在于极高的流体阻力与系统脆弱性。因为微米级通道的压降比常规系统高出两个数量级,所以驱动冷却液循环需要极高的水泵能耗。同时,极细微通道一旦发生颗粒物堵塞,缺乏修复手段将直接导致整颗高价值芯片报废。
台积电、英特尔与三星等晶圆制造厂正推进将微流控集成至3D封装工艺。因为跨越实验室阶段必须解决晶圆级制造良率、蚀刻成本与半导体工艺兼容性等工程难题,所以芯片级微流控在2030年前无法进入主流商业市场。这项技术的产业价值在于指明了液冷演进的「最终局」:冷却介质必须与半导体硅片实现物理层的深度融合。
BOM成本拆解
讲了四代技术演进,现在算账。
一台GB300整机柜液冷系统,液冷相关BOM占整机成本30%-40%,约7-10万美元/柜。这个比例相当惊人,液冷不是配套件,是核心成本项。
单机柜液冷系统(90kW基准,2026年价格)约56-61万元,折合每千瓦约6500元。
这个数字高吗?风冷方案每千瓦约2000-3000元。液冷是风冷的2-3倍。
不过需要注意的是, 液冷系统的工程造价与设计复杂度呈超线性增长。因为流体力学中流体阻力与流速呈非线性正相关,芯片功耗翻倍所需的冷却液流量加倍,必然导致水泵能耗呈立方级飙升并迫使管路密封架构进行高规格升级,所以系统克服热力学瓶颈的投入远超算力密度的自然增速。
这种由物理规律决定的高成本,正催生一个未被存量替代逻辑稀释的纯增量市场。因为风冷在物理层面已无法覆盖新建AI算力集群的极高发热需求,所以当前的百亿级市场规模完全由新增基础设施建设驱动。国盛证券数据显示,全球NVIDIA液冷市场将从2026年的100亿美元攀升至2028年的150-200亿美元,CSP自研液冷市场亦将在同期从40亿美元增至70亿美元。
中国市场的爆发轨迹与全球高度协同。2024年国内智算中心液冷规模达184亿元,预计2029年将激增至1300亿元。对于2028年的细分技术路线,东吴证券与山西证券在冷板式(253亿与641亿)与浸没式(729亿与256亿)的具体测算上存在显著分歧。但因为各机构对液冷在新建数据中心渗透率急速攀升的底层假设完全一致,所以国内液冷市场维持高速扩张的产业趋势具备绝对确定性。
现在拆解液冷系统内部的BOM结构:
部件
占比
毛利率
冷板
35%-41%
25%-30%
CDU(冷却分配单元)
25%-32%
40%-60%
快接头(UQD)
14%-15%
40%-60%
Manifold(分液歧管)
13%
30%-40%
冷却液
10%-20%(浸没式更高)
40%-60%
管路/施工/监控
15%-20%
20%-30%
冷板是价值量最大的单一环节,但毛利率最低(25%-30%),因为竞争激烈、附加值有限。CDU(Coolant Distribution Unit,冷量分配单元)和快接头是利润最厚的环节,毛利率40%-60%,壁垒在于know-how和认证。
这里的关键逻辑是 准入壁垒远高于技术壁垒。
液冷系统不是独立产品,是和服务器深度耦合的子系统。英伟达的NPN(Nvidia Partner Network)认证、云服务提供商的供应商认证、ODM(原始设计制造商)的工程验证,三道认证缺一不可。新进入者就算有技术能力,没有三到五年的认证周期和项目积累,进不去核心供应链。
这里面最关键的是 AVL(Approved Vendor List,认证供应商名录) 。AVL是英伟达等巨头数据中心供应链的入场券,必须经过完整的认证测试、质量审核、可靠性验证流程,通常3-5年周期。一旦进入AVL,意味着客户切换供应商的成本极高(重新认证、产线验证、可靠性跑批),相当于拿到了护城河。没进AVL的厂商,哪怕产品参数完全一样,也吃不到核心订单。
更要注意的是,AVL和「生态合作伙伴」是两码事。举个栗子,英维克目前是英伟达MGX生态推荐名单上的合作伙伴,订单需要通过服务器厂商间接获取。之前有些券商研报将英维克列为了tier1的供应商,但事实上最近被董秘否定了。
国内格局和投资关注点
总结产业链的投资逻辑,可提炼为以下几个维度:
第一,绝对价值量持续攀升。
因为单机柜算力密度每隔18-24个月发生翻倍式增长,所以即使零部件单位功率成本下降,系统总工程造价依然急剧上升。GB200液冷系统造价达7-10万美元/柜,未来新架构造价将更高。液冷环节具备量价齐升的商业属性。
第二,需求确定性双重叠加。
英伟达把液冷写进Rubin交付标准是平台拐点。云厂商CSP自研ASIC集群(Google TPU、亚马逊Trainium、微软Maia)同样需要液冷是需求拐点。两相冷板2026-2027规模化,浸没式2028-2029成本临界,两条技术路线接续,需求没有断档期。
第三,认证层级决定利润分配。
三到五年的认证周期,加上服务器深度耦合的产业特征,决定了新进入者很难撼动现有格局。但同样的认证层级决定了你能分到多少收益。 基于认证壁垒的投资优先级排序:
特种材料红利层(优先级最高) :冷却液环节占据极高的单柜BOM成本。因为海外巨头3M加速退出市场,所以具备特种氟化液量产能力的国产替代企业(如 巨化股份、东阳光 )拥有最强的业绩爆发潜力。
核心AVL壁垒层 :直接进入核心客户认证供应商名录(AVL)的部件商。因为订单确定性强且享有技术溢价,其高利润率已在业绩中初步验证(如 鼎通科技、高澜股份、中石科技 )。
生态与品牌标签层 :仅列入生态推荐名单而非直接供应链的部件商。虽然具备市场品牌声量,但因为订单需通过服务器厂商间接获取,所以存在显著的业绩兑现风险(如 英维克 一季度净利大幅回落)。
系统集成与代工层 :处于价值链底端的环节。因为面临最低的技术门槛与最弱的议价权,其实际利润率被严格压制(如 工业富联、领益智造、曙光数创 )。
第四,Follow the CapEx
四大科技巨头2026年AI CapEx合计约6500亿美元,同比增60%-74%。这些钱花出去,最终变成服务器、机柜、冷却系统。液冷是算力扩张的刚性被动受益者, 投资决策直接取决于核心客户基础设施的建设进度,无需受制于下游AI软件应用的商业化落地情况 。
同时,行业的风险也需要知道。
下游客户集中度高(英伟达+五大云厂商), 导致国内液冷零部件供应商议价能力受限。
技术路线存在不确定性(两相vs浸没的渗透节奏);国产替代的进度取决于成本下降曲线;全球液冷产业份额以北美为主(35%-37%),中国增速最快(CAGR 22.8%)。
但上限受制于下游集中度,芯片设计在英伟达,服务器在ODM,液冷厂商能切到的蛋糕有限。 全球液冷产业高附加值份额集中于北美,国内厂商的利润率天花板长期受制于ODM代工模式与较低的核心技术壁垒
最后,回到first principle,还是可以保持相对乐观的是,目前来看,AI算力密度每隔18-24个月翻倍,散热是物理瓶颈,液冷是唯一已知解法。这一核心物理约束不变,产业趋势就不会变。
作者:坦桑尼亚老云 | 编辑:栗加
每个视角都是拼凑世界真相的碎片,听真诚的行业观察者讲述独特的故事。我们有深耕行业的资深顾问,连续跨界探索的未来创业者,专注细节的产品匠人,和许多志同道合的你们,如果你有想要分享的故事或者感想,可以留言或者邮件联系(AiysJY@outlook.com),也欢迎点分享给需要的朋友们,记得点一下在看和星标,期待共同在这个行业的宏大叙事中,留下一句诗。:)
热门跟贴