00
2026年4月2日,美国国会两党议员联手抛出了一份名为《硬件技术多边协调管制法案》的草案。这份法案直接砍向了荷兰ASML公司的命脉——它要求全面禁止向中国出口所有深紫外浸没式光刻机,无论新旧型号,彻底堵死中国获取成熟制程(14nm及以下)核心设备的通道。更绝的是,法案给了日本、荷兰等盟友150天最后通牒,要求它们必须同步实施同等管制。
法案明确将中芯国际、长江存储、长鑫存储、华虹半导体、华为五家企业列为“受管制设施”,不仅禁止出口新设备,连现有设备的维修、校准、软件更新和技术支持都要一刀切断。这意味着这些企业花数十亿美元买来的生产线,一旦出现故障,可能就真的变成了一堆废铁。
另一个消息,菊厂ST950PR芯片,获得世界级AI大厂批量采购的订单,预计年出货量75万片。其中有一个重要原因是菊厂对标CUDA,开发了CANN并升级到了CANN NEXT,且在去年完全开源,突破了CUDA框架兼容和算子适配的瓶颈。当芯片的硬件实力能匹配客户需求(单卡算力是英伟达H20的2.87倍,HBM容量112GB,比H20多16%,多模态生成速度提升60%),竞争力自然会体现出来(昨天咱大A整体大涨,特别是算力板卡表现优异,也算是竞争力的一种体现吧)。
芯片设计完成后,还要经过制造,封装、部署,服务才能变成客户需要的算力。因为制程限制,950PR芯片采用的是芯片合封技术,即把多颗芯片拼成一颗来用,但拼的过程非常复杂,芯片之间需要高速通信,中间要堆叠HBM内存颗粒,整个封装体的散热,信号完整性,良率控制,要求比传统封装高出好几个量级,技术难度极高。常规数据表明,950PR的芯片功耗600W,比H20高了50%,运行中对散热要求显著提升。
01
仅仅提升液冷的热交换能力始终存在散热瓶颈(请参考文章:液冷技术与方案评价),要想提高整体系统的性能,首先要对芯片做科学的热设计。传统的芯片热设计方法依赖热电偶与红外热成像,在现代高性能芯片(GPU/CPU/HBM)与先进封装、功率器件中存在明显局限性,而比如T3Ster,CX等SISO的瞬态热测试设备,在2.5D/3D、HBM、Chiplet、TSV等先进封装中,其一维、单热源、线性、冷板边界的核心假设与复杂三维热场严重不匹配(请参考文章:先进封装的瞬态热测试,等效热导率提取及模型校准),即使把SISO瞬态热测试设备和红外,热电偶等多个工具组合使用,也无法全部满足应用的要求(实际工程中,这可能是主要解决方案)。
先进封装(2.5D/3D、Chiplet、HBM集成)的热设计之所以极度复杂,本质是因为:热源从单一平面变为密集立体多热源耦合,热路径被大幅拉长并由大量低热导界面组成,同时伴随超高功耗密度、严苛温度敏感器件(HBM)、多物理场强耦合、瞬态动态负载等多重约束叠加。必须对结温进行精确表征,在微小空间内实现高精度、多维度、全瞬态的热管控,因此难度远超传统封装,热设计已成为核心挑战。
鉴于先进封装多热源强耦合,功率密度高以及极端的瞬态特性等工况的复杂性,工程实践中,需要基于MIMO高精度瞬态测试和仿真的深度融合(请参考文章:先进封装的瞬态热测试,等效热导率提取及模型校准),构建先进封装芯片瞬态工况的高精度仿真模型。从设计的初期就要开始做相应的热设计,并不断的迭代,优化,验证。
02
MIMO的瞬态热测试是为了准确提取散热路径的信息,其测试方法相对于SISO的瞬态热测试设备,会稍微复杂一点。
以双热源的芯片为例,我们详细展示一下其实际的操作过程,以及如何结合应用繁星工具预测结温。
SISO的瞬态热测试执行的是JESD 51-14的标准【请参考文章:热测试(二)——瞬态热测试与结构函数】,而MIMO的瞬态热测试,现行还没有相应标准,我们先定义几个参数。
Zth1,1:芯片1作为热源,芯片1的瞬态热阻抗曲线;
Zth2,1:芯片1作为热源,芯片2的瞬态热阻抗曲线;
Zth1,2:芯片2作为热源,芯片1的瞬态热阻抗曲线;
Zth2,2:芯片2作为热源,芯片2的瞬态热阻抗曲线。
其中Zth1,1和Zth2,2是热源自身的散热路径,这种测试方法和SISO的瞬态热测试完全相同,而其中Zth2,1和Zth1,2是互热阻瞬态响应曲线,其定义是某测量点不发热,但受到其他热源的影响的散热路径的相关信息,下标的前面一个表示的是温度测量点,后面一个表示的是热源点。
具体测试方式如下:
1、通过预检,选择和确定每个热源的测试用小电流I小1和I小2(不会引起被测器件发热),测量每个热源的K系数;
2、根据工作时的大致功率参数,分别确定加热电流I大1和I大2(理论上散热路径是时不变系统,和功率无关,但实际上由于材料物性,接触热阻等,都可能因为功率不同而不同,因此基于实际工况时的功率去做瞬态热测试,其数据应用性更高);
3、对两个热源在电路上做物理隔离,用两个完全隔离的测试通道,连接不同的热源,形成两个完全隔离的加热回路和测试回路;
4、给热源1施加I大1,电子被测器件开始发热,温度逐步升高,随着温度梯度(器件温度减去环境温度)增加,其散热功率也不断增加,直到加入功率等于散热功率,系统处于第一次平衡状态;
5、将I大1关闭,同步分别快速切换至I小1和I小2,切换时间小于等于1us,在这里有一个技术难点,既在I大1和I小2之间的切换时间也要小于等于1us,这便是SISO和MIMO设备之间的区别,SISO设备只能做到测试通道内微秒级同步,而MIMO设备可以做到测试通道之间微秒级同步;
6、分别用1us的采样速度,基于连续变频采样,对热源1和热源2做连续采样,直到达到第二个热平衡状态(器件温度等于环境温度),使用第一步测出的K系数即可计算出各个热源的瞬态温度,从计算出Zth1,1和Zth2,1;
7、将热源切换成热源2和I大2,重复步骤4-6,即可计算出Zth1,2和Zth2,2。
MIMO的瞬态热测试设备相对于SISO,有两个重要的技术指标:
Ø各测量通道为互相独立,完全隔离;
Ø测量通道之间可以做到微秒级同步。
如果通道不隔离,热源之间由于热串扰的问题,无法计算每个热源的准确功率,而准确的功率是计算热阻的前提。通道之间微秒级同步是为了保证瞬态温度测量的有效性,从而得到精确的热物性参数。基于MIMO瞬态热测试设备的测试数据,我们可以用繁星工具中的瞬态结温计算工具,去计算芯片实时工况中,每个温度测量点的结温。(计算的理论基础,请参考文章:如何用卷积工具准确预测结温)
03
从2.1版本开始,以前的卷积工具更名为瞬态结温计算工具,2.1版的繁星还没有正式发布,主要是基于软件GUI的改进。
左边是工具选择区域,左边是工具操作区域。可以设置工具使用的边界条件,比如上图,设定芯片的工作温度为25度,计算的时间步长为0.1秒,点击热耦合矩阵,就会跳出对话框,输入功耗,自Zth,或者互Zth,等信息,除了Zth,软件也支持Forster模型和Cauer模型,在功耗区域,可以输入P1,表示热源1发热,输入P2,表示热源2发热,同时输入两个P1和P2,表示热源共同发热。
输入功耗和Zth,点击计算,数秒后,就能得到计算的结果,右图就会显示结温的瞬态变化曲线,从图表上看,当热源1工作时,芯片1最高结温发生在75秒,ΔT为177.8°C(瞬态最高结温为202.8),芯片2的最高结温发生在75.2秒,ΔT为82.9°C(瞬态结温为107.9)。
而双热源同时发热时,芯片1最高结温发生在74.97秒,瞬态最高结温为262.7°C,芯片2的最高结温发生在74.57秒,瞬态最高结温为287.46°C。
如果在两个热源以外,还存在一个NTC/PTC或者热电偶(Transfer Point),基于线性时不变系统,我们可以用同样的方法对瞬态结温以及Transfer Point(需要先测量Transfer Point的Zth3,1和Zth3,2,功耗为零)的温度做计算。我们或者可以尝试以下应用:
1、计算每个热源对Transfer Point温度增量的贡献值;
2、温度增量的总和,即是Transfer Point的实际的ΔT,而Transfer Point的温度是可以实时读取的,这可以验证模型的精度;
3、如果Transfer Point的温度的计算值和实际值发生了比较大的差异(低出一定值),可能是水道的散热能力或者其他重要散热路径发生了严重的故障;
4、稳态工况下,当每个热源功率不变后,每个温度增量的贡献值也是确定的,即可得到各热源贡献值之间的比例关系,对比典型工况的功率分布和各自的温度增量,从而可以通过Transfer Point的实时温度,反推每个热源的实时温度。
5、这样我们或许可以基于该种推算对相应模块做过温保护,或者设定相应的控制策略,降额运行,以保证系统的运行安全;
6、可能还会产生其他新的有价值的应用技术,有待工程实践进一步探索。
关于Transfer Ponit的详细典型应用,请大家关注鲁欧智造在4月16日下午线上的免费技术专题《基于热阻抗模型的高精度结温计算方法研究》
欢迎业界专家莅临指导(扫码即可报名,全免费)。
04
瞬态测试数据(瞬态热阻抗曲线,结构函数)不仅仅只是用来计算结温,通过校准得到的高精度仿真模型,其温度场的瞬态变化也可以和实物模型保持高度一致,这种专注于电子散热的数字孪生技术,可以很大程度上减低我们试错的成本。
然而,在研发的初期阶段,并无实际的样品,热设计的主要是架构选型、Chiplet布局、中介层/ TSV /微凸点方案、散热架构初步定义等等,核心目标是快速筛除不可行方案、量化热瓶颈、建立全链路热数字基线、提前锁定可靠性边界,避免后期流片/封装由于热问题无法解决而返工。
初期阶段不追求极致精度,但必须解决4个不可妥协的热问题,所有工具应用都围绕这4点:
结温可行性:设定结温上限,比如GPU/CPU核心结温≤105℃、HBM结温≤95℃,无局部热点超阈值;
热耦合可控:GPU对HBM的热串扰ΔT≤10℃,Chiplet间热叠加不触发降频;
热路径无瓶颈:垂直/横向布局合理,TSV /微凸点/中介层不成为致命热点;
可靠性初步设计:热应力、温度循环、功率循环寿命满足规格,无早期分层/凸点失效风险。
在设计的初期阶段,仿真结合繁星工具可以快速试错,快速收敛,基于经验或者高精度参数的热仿真,可以对方案做初步验证,输出:全封装三维温度云图、各Die结温分布、HBM通道温度、热点温度、热流密度分布等等,定位散热瓶颈。
在研发的详细设计阶段,热设计的核心目标是定尺寸、定材料、定结构、定工艺。必须解决:
结温精准可控:比如GPU/CPU热点温度≤105℃,HBM全程≤85–95℃,无局部过热点;
热路径完全打通:明确芯片→μbump→中介层→TSV→基板→冷板等各自材料对散热的影响,消除热瓶颈。
热耦合与串扰量化:GPU对HBM的热烘烤、Chiplet间互相加热必须可控、可计算、可验证;
热–力可靠性闭环:微凸点、焊球、底部填充、中介层不出现应力过载、疲劳失效;
热数字孪生:建模等效参数泛化性良好,整体仿真误差可控,实现虚拟空间探索,物理世界验证。
详细设计阶段,可以立足初步设计方案样品(或者测试假片),用CXAI的瞬态热测试和仿真结果做比对,进行自动热模型校准,从而提高仿真精度。用高精度的仿真模型,结合瞬态结温计算工具,对芯片的设计方案做进一步优化,并通过寿命计算工具去预测产品的可靠性。总体流程如下图所示:
设计方案完成后的样品,通过CXAI可以精确的检测芯片的每个热源的散热路径。技术上可以输出相应的热阻网络模型(热阻,双热阻等),BCI的热模型(Delphi,Delphi-c,3D ROM),以及详细热模型。有了芯片的高精度参数和模型输出,在板卡,整机,数据中心等电子系统的整体热设计中,下游企业可以大幅降低其研发的工作量,从而实现整个产业链的生态协同。
缺乏先进制程,芯片的单体能力被限制,逼迫技术在其他提升算力的技术路径寻求突破,从而建立了芯片拼接的能力——在微小的空间内,实现高速通信,实现信号、功率和热设计的整体协同,多个芯片堆叠的算力并不差。更重要的是,我们获得了基于新技术探索而沉淀出的方法论,因为制程的限制总有一天会突破,新的制程下,结合芯片拼接技术,反而可以建立在整体解决方案上的技术优势,未来的竞争,鹿死谁手,现在还没有答案(其实我认为答案很明显了),让我们拭目以待。
热门跟贴