浅谈先进封装芯片的热设计|热设计|瞬态|繁星|结温

2026年4月2日，美国国会两党议员联手抛出了一份名为《硬件技术多边协调管制法案》的草案。这份法案直接砍向了荷兰ASML公司的命脉——它要求全面禁止向中国出口所有深紫外浸没式光刻机，无论新旧型号，彻底堵死中国获取成熟制程（14nm及以下）核心设备的通道。更绝的是，法案给了日本、荷兰等盟友150天最后通牒，要求它们必须同步实施同等管制。

法案明确将中芯国际、长江存储、长鑫存储、华虹半导体、华为五家企业列为“受管制设施”，不仅禁止出口新设备，连现有设备的维修、校准、软件更新和技术支持都要一刀切断。这意味着这些企业花数十亿美元买来的生产线，一旦出现故障，可能就真的变成了一堆废铁。

另一个消息，菊厂ST950PR芯片，获得世界级AI大厂批量采购的订单，预计年出货量75万片。其中有一个重要原因是菊厂对标CUDA，开发了CANN并升级到了CANN NEXT，且在去年完全开源，突破了CUDA框架兼容和算子适配的瓶颈。当芯片的硬件实力能匹配客户需求（单卡算力是英伟达H20的2.87倍，HBM容量112GB，比H20多16%，多模态生成速度提升60%），竞争力自然会体现出来（昨天咱大A整体大涨，特别是算力板卡表现优异，也算是竞争力的一种体现吧）。

芯片设计完成后，还要经过制造，封装、部署，服务才能变成客户需要的算力。因为制程限制，950PR芯片采用的是芯片合封技术，即把多颗芯片拼成一颗来用，但拼的过程非常复杂，芯片之间需要高速通信，中间要堆叠HBM内存颗粒，整个封装体的散热，信号完整性，良率控制，要求比传统封装高出好几个量级，技术难度极高。常规数据表明，950PR的芯片功耗600W，比H20高了50%，运行中对散热要求显著提升。

仅仅提升液冷的热交换能力始终存在散热瓶颈（请参考文章：液冷技术与方案评价），要想提高整体系统的性能，首先要对芯片做科学的热设计。传统的芯片热设计方法依赖热电偶与红外热成像，在现代高性能芯片（GPU/CPU/HBM）与先进封装、功率器件中存在明显局限性，而比如T3Ster，CX等SISO的瞬态热测试设备，在2.5D/3D、HBM、Chiplet、TSV等先进封装中，其一维、单热源、线性、冷板边界的核心假设与复杂三维热场严重不匹配（请参考文章：先进封装的瞬态热测试，等效热导率提取及模型校准），即使把SISO瞬态热测试设备和红外，热电偶等多个工具组合使用，也无法全部满足应用的要求（实际工程中，这可能是主要解决方案）。

先进封装（2.5D/3D、Chiplet、HBM集成）的热设计之所以极度复杂，本质是因为：热源从单一平面变为密集立体多热源耦合，热路径被大幅拉长并由大量低热导界面组成，同时伴随超高功耗密度、严苛温度敏感器件（HBM）、多物理场强耦合、瞬态动态负载等多重约束叠加。必须对结温进行精确表征，在微小空间内实现高精度、多维度、全瞬态的热管控，因此难度远超传统封装，热设计已成为核心挑战。

鉴于先进封装多热源强耦合，功率密度高以及极端的瞬态特性等工况的复杂性，工程实践中，需要基于MIMO高精度瞬态测试和仿真的深度融合(请参考文章：先进封装的瞬态热测试，等效热导率提取及模型校准），构建先进封装芯片瞬态工况的高精度仿真模型。从设计的初期就要开始做相应的热设计，并不断的迭代，优化，验证。

MIMO的瞬态热测试是为了准确提取散热路径的信息，其测试方法相对于SISO的瞬态热测试设备，会稍微复杂一点。

以双热源的芯片为例，我们详细展示一下其实际的操作过程，以及如何结合应用繁星工具预测结温。

SISO的瞬态热测试执行的是JESD 51-14的标准【请参考文章：热测试（二）——瞬态热测试与结构函数】，而MIMO的瞬态热测试，现行还没有相应标准，我们先定义几个参数。

Zth1，1：芯片1作为热源，芯片1的瞬态热阻抗曲线；

Zth2，1：芯片1作为热源，芯片2的瞬态热阻抗曲线；

Zth1，2：芯片2作为热源，芯片1的瞬态热阻抗曲线；

Zth2，2：芯片2作为热源，芯片2的瞬态热阻抗曲线。

其中Zth1，1和Zth2，2是热源自身的散热路径，这种测试方法和SISO的瞬态热测试完全相同，而其中Zth2，1和Zth1，2是互热阻瞬态响应曲线，其定义是某测量点不发热，但受到其他热源的影响的散热路径的相关信息，下标的前面一个表示的是温度测量点，后面一个表示的是热源点。

具体测试方式如下：

1、通过预检，选择和确定每个热源的测试用小电流I小1和I小2（不会引起被测器件发热），测量每个热源的K系数；

2、根据工作时的大致功率参数，分别确定加热电流I大1和I大2（理论上散热路径是时不变系统，和功率无关，但实际上由于材料物性，接触热阻等，都可能因为功率不同而不同，因此基于实际工况时的功率去做瞬态热测试，其数据应用性更高）；

3、对两个热源在电路上做物理隔离，用两个完全隔离的测试通道，连接不同的热源，形成两个完全隔离的加热回路和测试回路；

4、给热源1施加I大1，电子被测器件开始发热，温度逐步升高，随着温度梯度（器件温度减去环境温度）增加，其散热功率也不断增加，直到加入功率等于散热功率，系统处于第一次平衡状态；

5、将I大1关闭，同步分别快速切换至I小1和I小2，切换时间小于等于1us，在这里有一个技术难点，既在I大1和I小2之间的切换时间也要小于等于1us，这便是SISO和MIMO设备之间的区别，SISO设备只能做到测试通道内微秒级同步，而MIMO设备可以做到测试通道之间微秒级同步；

6、分别用1us的采样速度，基于连续变频采样，对热源1和热源2做连续采样，直到达到第二个热平衡状态（器件温度等于环境温度），使用第一步测出的K系数即可计算出各个热源的瞬态温度，从计算出Zth1，1和Zth2，1；

7、将热源切换成热源2和I大2，重复步骤4-6，即可计算出Zth1，2和Zth2，2。

MIMO的瞬态热测试设备相对于SISO，有两个重要的技术指标：

Ø各测量通道为互相独立，完全隔离；

Ø测量通道之间可以做到微秒级同步。

如果通道不隔离，热源之间由于热串扰的问题，无法计算每个热源的准确功率，而准确的功率是计算热阻的前提。通道之间微秒级同步是为了保证瞬态温度测量的有效性，从而得到精确的热物性参数。基于MIMO瞬态热测试设备的测试数据，我们可以用繁星工具中的瞬态结温计算工具，去计算芯片实时工况中，每个温度测量点的结温。（计算的理论基础，请参考文章：如何用卷积工具准确预测结温）

从2.1版本开始，以前的卷积工具更名为瞬态结温计算工具，2.1版的繁星还没有正式发布，主要是基于软件GUI的改进。

左边是工具选择区域，左边是工具操作区域。可以设置工具使用的边界条件，比如上图，设定芯片的工作温度为25度，计算的时间步长为0.1秒，点击热耦合矩阵，就会跳出对话框，输入功耗，自Zth，或者互Zth，等信息，除了Zth，软件也支持Forster模型和Cauer模型，在功耗区域，可以输入P1，表示热源1发热，输入P2，表示热源2发热，同时输入两个P1和P2，表示热源共同发热。

输入功耗和Zth，点击计算，数秒后，就能得到计算的结果，右图就会显示结温的瞬态变化曲线，从图表上看，当热源1工作时，芯片1最高结温发生在75秒，ΔT为177.8°C（瞬态最高结温为202.8），芯片2的最高结温发生在75.2秒，ΔT为82.9°C（瞬态结温为107.9）。

而双热源同时发热时，芯片1最高结温发生在74.97秒，瞬态最高结温为262.7°C，芯片2的最高结温发生在74.57秒，瞬态最高结温为287.46°C。

如果在两个热源以外，还存在一个NTC/PTC或者热电偶（Transfer Point），基于线性时不变系统，我们可以用同样的方法对瞬态结温以及Transfer Point（需要先测量Transfer Point的Zth3，1和Zth3，2，功耗为零）的温度做计算。我们或者可以尝试以下应用：

1、计算每个热源对Transfer Point温度增量的贡献值；

2、温度增量的总和，即是Transfer Point的实际的ΔT，而Transfer Point的温度是可以实时读取的，这可以验证模型的精度；

3、如果Transfer Point的温度的计算值和实际值发生了比较大的差异（低出一定值），可能是水道的散热能力或者其他重要散热路径发生了严重的故障；

4、稳态工况下，当每个热源功率不变后，每个温度增量的贡献值也是确定的，即可得到各热源贡献值之间的比例关系，对比典型工况的功率分布和各自的温度增量，从而可以通过Transfer Point的实时温度，反推每个热源的实时温度。

5、这样我们或许可以基于该种推算对相应模块做过温保护，或者设定相应的控制策略，降额运行，以保证系统的运行安全；

6、可能还会产生其他新的有价值的应用技术，有待工程实践进一步探索。

关于Transfer Ponit的详细典型应用，请大家关注鲁欧智造在4月16日下午线上的免费技术专题《基于热阻抗模型的高精度结温计算方法研究》

欢迎业界专家莅临指导（扫码即可报名，全免费）。

瞬态测试数据（瞬态热阻抗曲线，结构函数）不仅仅只是用来计算结温，通过校准得到的高精度仿真模型，其温度场的瞬态变化也可以和实物模型保持高度一致，这种专注于电子散热的数字孪生技术，可以很大程度上减低我们试错的成本。

然而，在研发的初期阶段，并无实际的样品，热设计的主要是架构选型、Chiplet布局、中介层/ TSV /微凸点方案、散热架构初步定义等等，核心目标是快速筛除不可行方案、量化热瓶颈、建立全链路热数字基线、提前锁定可靠性边界，避免后期流片/封装由于热问题无法解决而返工。

初期阶段不追求极致精度，但必须解决4个不可妥协的热问题，所有工具应用都围绕这4点：

结温可行性：设定结温上限，比如GPU/CPU核心结温≤105℃、HBM结温≤95℃，无局部热点超阈值；

热耦合可控：GPU对HBM的热串扰ΔT≤10℃，Chiplet间热叠加不触发降频；

热路径无瓶颈：垂直/横向布局合理，TSV /微凸点/中介层不成为致命热点；

可靠性初步设计：热应力、温度循环、功率循环寿命满足规格，无早期分层/凸点失效风险。

在设计的初期阶段，仿真结合繁星工具可以快速试错，快速收敛，基于经验或者高精度参数的热仿真，可以对方案做初步验证，输出：全封装三维温度云图、各Die结温分布、HBM通道温度、热点温度、热流密度分布等等，定位散热瓶颈。

在研发的详细设计阶段，热设计的核心目标是定尺寸、定材料、定结构、定工艺。必须解决：

结温精准可控：比如GPU/CPU热点温度≤105℃，HBM全程≤85–95℃，无局部过热点；

热路径完全打通：明确芯片→μbump→中介层→TSV→基板→冷板等各自材料对散热的影响，消除热瓶颈。

热耦合与串扰量化：GPU对HBM的热烘烤、Chiplet间互相加热必须可控、可计算、可验证；

热–力可靠性闭环：微凸点、焊球、底部填充、中介层不出现应力过载、疲劳失效；

热数字孪生：建模等效参数泛化性良好，整体仿真误差可控，实现虚拟空间探索，物理世界验证。

详细设计阶段，可以立足初步设计方案样品（或者测试假片），用CXAI的瞬态热测试和仿真结果做比对，进行自动热模型校准，从而提高仿真精度。用高精度的仿真模型，结合瞬态结温计算工具，对芯片的设计方案做进一步优化，并通过寿命计算工具去预测产品的可靠性。总体流程如下图所示：

设计方案完成后的样品，通过CXAI可以精确的检测芯片的每个热源的散热路径。技术上可以输出相应的热阻网络模型（热阻，双热阻等），BCI的热模型（Delphi，Delphi-c，3D ROM），以及详细热模型。有了芯片的高精度参数和模型输出，在板卡，整机，数据中心等电子系统的整体热设计中，下游企业可以大幅降低其研发的工作量，从而实现整个产业链的生态协同。

缺乏先进制程，芯片的单体能力被限制，逼迫技术在其他提升算力的技术路径寻求突破，从而建立了芯片拼接的能力——在微小的空间内，实现高速通信，实现信号、功率和热设计的整体协同，多个芯片堆叠的算力并不差。更重要的是，我们获得了基于新技术探索而沉淀出的方法论，因为制程的限制总有一天会突破，新的制程下，结合芯片拼接技术，反而可以建立在整体解决方案上的技术优势，未来的竞争，鹿死谁手，现在还没有答案（其实我认为答案很明显了），让我们拭目以待。