3D封装发热、互联再次失控，英伟达又要延迟发货B200|gpu|nvidia|台积电|平均售价|知名企业|英伟达|黄仁勋

路透社发文称，据《Information》周一报道，第一批搭载 Blackwell 芯片的机架已经过热，并且芯片之间的连接方式出现了故障。由于过热问题，英伟达 (NVDA.O) 的顶级客户推迟了这家人工智能芯片领导者最新“Blackwell”机架的订单。

据报道，主要客户微软 (MSFT.O)、亚马逊 (AMZN.O) 云部门、Alphabet 旗下谷歌 (GOOGL.O) 和 Meta Platforms (META.O) 已经削减了 Nvidia Blackwell GB200 机架的部分订单，这些客户每家都下了价值 100 亿美元或更多的 Blackwell 机架订单。此前英伟达首席执行官黄仁勋曾表示，该公司有望在第四财季通过 Blackwell芯片增加数十亿美元的收入。

由于互联失效原因，英伟达再次延迟了其数据中心AI芯片GB200的交付时间，导致主要合作伙伴 OpenAI 要求英伟达交付微软较早一代的 Nvidia 的“Hopper”芯片。微软最初计划在其凤凰城的一处设施中安装至少装有 5万个 Blackwell 芯片的 GB200 机架。

此次延迟的主要原因还是在于装有最新Blackwell芯片的机架出现了过热问题，并且芯片之间的互联也存在故障。Blackwell芯片作为英伟达在AI领域的重要布局，一直备受业界关注。然而，新技术的引入往往伴随着一系列的技术挑战和测试难题。据The Information透露，英伟达在测试过程中发现，装有Blackwell芯片的机架在运行时出现了过热现象，这不仅可能影响芯片的性能表现，还可能对机架的其他部件造成损害。

此外，芯片之间的互联故障也是导致交付延迟的另一个重要原因。在高性能计算领域，芯片之间的高效互联是确保系统整体性能的关键。一旦互联出现问题，将严重影响数据的传输速度和系统的稳定性。

根据资料介绍，一个GB200包含一颗Grace 72核的ARM CPU和2颗Blackwell GPU，对应的功耗为 2700W。芯片之间采用台积电的CoSoW 3D堆叠封装封装技术，先把2颗Blackwell GPU通过RDL再布线层缝合在一起，然后再与Grace 72核的ARM CPU和其它元器件封装在整个硅晶圆上。

此前GB200就曾出现过互联失效现象，据英伟达自己的解释，是因为再布线层的各个引组间的电阻不相同，在高速数据传输与校验时，芯片出现互联信号失真现象，导致GB200不能正常工作。当时英伟达与台积电都表示，会通过修改RDL的再布线层与周边元器件的设计，来完善两颗芯片间的数据联接，让整个系统可以高效运行。英伟达黄仁勋先生此前否认了是因为芯片过热导致互联失效。

不过显然英伟达到台积电并没有通过重新设计，完全解决整个系统互联失效难题，但具体是什么原因导致了更新后的GB200芯片系统还会出现互联失效，可能要等英伟达和台积电的工程师继续测试分析，才能得到真正的结果。

上一次GB200失效，让行业对以玻璃基板来替代现在的RDL再布线层抱有了极大的期望，认为这样可以解决热管理失效导致的互联失效难题问题，台积电与英伟达也公开表示未来会支持玻璃基板封装技术。此次英伟达与台积电要是再解决不了现有工艺的GB200热管理失效与互联失效难题，后续会不会转为尝试采用玻璃基板来解决，也还有待观察。

一个完整的GB200系统拥有 36 个 GB200 Superchip，其中包括 72 个 Blackwell GPU 和 36 个 Grace CPU，它们通过第五代 NVLink 互连。单个rack内部包括18个Compute tray(上10下8)和9个Switch tray，机柜内Computetray和Switch tray之间通过Copper Cable Cartridge相连。据悉单颗GB200售价约7万美元，一台42U服务器将高达300万美元，约合2166万人民币。

英伟达此前在GTC大会上也晒出了关于GB200的样机，采用的液冷散热架构，现场看到英伟达GB200的液冷机架方案是由鴻海（Foxconn）的子公司鸿佰提供。另外联想、华硕也推出了相关的液冷机架解决方案。

据旭日大数据了解，英伟达的AI芯片在3D堆叠封装中有下面这些难点：一是RDL再布线层与各个主控芯片间的联连可靠性、电性能平衡处理、信号互联处理等难题，二是TSV硅穿孔联接的高速HMB内存模块与硅基板之间的混和键合稳定性难题，三星主控芯片与硅基板之间的金属层键合难题。

由于主控芯片与硅基板之间的金属层键合工艺，从材料到工艺参数全部只有台积电掌握，同时台积电还有专有的CoSoW 3D堆叠封装工艺，所以英伟达的AI芯片每一代都是由台积电代工。

由于上面这些工艺在上几代的AI芯片中得到了验证，因此出现问题的机率较小。所以目前英伟达、台积电，以及关心英伟达AI芯片发展的业内人士，都把目光放到了GB200首次采用的，利用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺上。

不过事实上也不排除用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺引入，造成了整个3D堆叠互连技术的工艺差异性被放大，从而让里面的各个小CHIP芯片之间的信号传输数据，得不到有效的验证与放行，从而出现整个GB200系统互联失效。

据行业人士传回的消息显示，GB200两次跳票，确实让一些行业客户对这颗芯片的接受程度有所降低，一些行业大客户隐约的对外界表示，可以会期待英伟达在解决好GB200的工艺稳定性之后，直接下单工艺成熟后的英伟达下一代GB300的芯片，GB300芯片据英伟达自己声称可以大幅度降低AI的单位运算成本，并将于今年底上市。

事件回顾：

日期：2025年1月14日

新闻：据多家外媒报道，GPU制造商英伟达再次推迟其数据中心AI芯片GB200的交付时间。

延迟原因：

过热问题：装有最新Blackwell芯片的机架在运行时出现过热现象，影响了芯片性能和机架其他部件。

芯片互联故障：Blackwell芯片之间的互联出现了问题，这在高性能计算中是系统整体性能的关键点。

Blackwell芯片背景：

重要性：作为英伟达在AI领域的战略产品，Blackwell芯片一直备受关注，但其新技术也带来了诸多挑战。

技术挑战：英伟达在测试中发现了上述问题，对芯片的性能和稳定性产生了影响。

GB200技术细节：

配置：每个GB200包含一颗72核的Grace ARM CPU和两颗Blackwell GPU，功耗为2700W。

封装技术：采用台积电的CoSoW 3D堆叠封装技术，通过RDL再布线层将两颗Blackwell GPU缝合在一起，然后与Grace CPU和其他元件共封装在硅晶圆上。