路透社发文称,据《Information》周一报道,第一批搭载 Blackwell 芯片的机架已经过热,并且芯片之间的连接方式出现了故障。由于过热问题,英伟达 (NVDA.O) 的顶级客户推迟了这家人工智能芯片领导者最新“Blackwell”机架的订单。

据报道,主要客户微软 (MSFT.O)、亚马逊 (AMZN.O) 云部门、Alphabet 旗下谷歌 (GOOGL.O) 和 Meta Platforms (META.O) 已经削减了 Nvidia Blackwell GB200 机架的部分订单,这些客户每家都下了价值 100 亿美元或更多的 Blackwell 机架订单。此前英伟达首席执行官黄仁勋曾表示,该公司有望在第四财季通过 Blackwell芯片增加数十亿美元的收入。

由于互联失效原因,英伟达再次延迟了其数据中心AI芯片GB200的交付时间,导致主要合作伙伴 OpenAI 要求英伟达交付微软较早一代的 Nvidia 的“Hopper”芯片。微软最初计划在其凤凰城的一处设施中安装至少装有 5万 个 Blackwell 芯片的 GB200 机架。

此次延迟的主要原因还是在于装有最新Blackwell芯片的机架出现了过热问题,并且芯片之间的互联也存在故障。Blackwell芯片作为英伟达在AI领域的重要布局,一直备受业界关注。然而,新技术的引入往往伴随着一系列的技术挑战和测试难题。据The Information透露,英伟达在测试过程中发现,装有Blackwell芯片的机架在运行时出现了过热现象,这不仅可能影响芯片的性能表现,还可能对机架的其他部件造成损害。

此外,芯片之间的互联故障也是导致交付延迟的另一个重要原因。在高性能计算领域,芯片之间的高效互联是确保系统整体性能的关键。一旦互联出现问题,将严重影响数据的传输速度和系统的稳定性。

根据资料介绍,一个GB200包含一颗Grace 72核的ARM CPU和2颗Blackwell GPU,对应的功耗为 2700W。芯片之间采用台积电的CoSoW 3D堆叠封装封装技术,先把2颗Blackwell GPU通过RDL再布线层缝合在一起,然后再与Grace 72核的ARM CPU和其它元器件封装在整个硅晶圆上。

此前GB200就曾出现过互联失效现象,据英伟达自己的解释,是因为再布线层的各个引组间的电阻不相同,在高速数据传输与校验时,芯片出现互联信号失真现象,导致GB200不能正常工作。当时英伟达与台积电都表示,会通过修改RDL的再布线层与周边元器件的设计,来完善两颗芯片间的数据联接,让整个系统可以高效运行。英伟达黄仁勋先生此前否认了是因为芯片过热导致互联失效。

不过显然英伟达到台积电并没有通过重新设计,完全解决整个系统互联失效难题,但具体是什么原因导致了更新后的GB200芯片系统还会出现互联失效,可能要等英伟达和台积电的工程师继续测试分析,才能得到真正的结果。

上一次GB200失效,让行业对以玻璃基板来替代现在的RDL再布线层抱有了极大的期望,认为这样可以解决热管理失效导致的互联失效难题问题,台积电与英伟达也公开表示未来会支持玻璃基板封装技术。此次英伟达与台积电要是再解决不了现有工艺的GB200热管理失效与互联失效难题,后续会不会转为尝试采用玻璃基板来解决,也还有待观察。

一个完整的GB200系统拥有 36 个 GB200 Superchip,其中包括 72 个 Blackwell GPU 和 36 个 Grace CPU,它们通过第五代 NVLink 互连。单个rack内部包括18个Compute tray(上10下8)和9个Switch tray,机柜内Computetray和Switch tray之间通过Copper Cable Cartridge相连。据悉单颗GB200售价约7万美元,一台42U服务器将高达300万美元,约合2166万人民币。

英伟达此前在GTC大会上也晒出了关于GB200的样机,采用的液冷散热架构,现场看到英伟达GB200的液冷机架方案是由鴻海(Foxconn)的子公司鸿佰提供。另外联想、华硕也推出了相关的液冷机架解决方案。

据旭日大数据了解,英伟达的AI芯片在3D堆叠封装中有下面这些难点:一是RDL再布线层与各个主控芯片间的联连可靠性、电性能平衡处理、信号互联处理等难题,二是TSV硅穿孔联接的高速HMB内存模块与硅基板之间的混和键合稳定性难题,三星主控芯片与硅基板之间的金属层键合难题。

由于主控芯片与硅基板之间的金属层键合工艺,从材料到工艺参数全部只有台积电掌握,同时台积电还有专有的CoSoW 3D堆叠封装工艺,所以英伟达的AI芯片每一代都是由台积电代工。

由于上面这些工艺在上几代的AI芯片中得到了验证,因此出现问题的机率较小。所以目前英伟达、台积电,以及关心英伟达AI芯片发展的业内人士,都把目光放到了GB200首次采用的,利用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺上。

不过事实上也不排除用RDL中间层来把两颗Blackwell GPU缝合在一起的工艺引入,造成了整个3D堆叠互连技术的工艺差异性被放大,从而让里面的各个小CHIP芯片之间的信号传输数据,得不到有效的验证与放行,从而出现整个GB200系统互联失效。

据行业人士传回的消息显示,GB200两次跳票,确实让一些行业客户对这颗芯片的接受程度有所降低,一些行业大客户隐约的对外界表示,可以会期待英伟达在解决好GB200的工艺稳定性之后,直接下单工艺成熟后的英伟达下一代GB300的芯片,GB300芯片据英伟达自己声称可以大幅度降低AI的单位运算成本,并将于今年底上市。

事件回顾:

日期:2025年1月14日

新闻:据多家外媒报道,GPU制造商英伟达再次推迟其数据中心AI芯片GB200的交付时间。

延迟原因:

过热问题:装有最新Blackwell芯片的机架在运行时出现过热现象,影响了芯片性能和机架其他部件。

芯片互联故障:Blackwell芯片之间的互联出现了问题,这在高性能计算中是系统整体性能的关键点。

Blackwell芯片背景:

重要性:作为英伟达在AI领域的战略产品,Blackwell芯片一直备受关注,但其新技术也带来了诸多挑战。

技术挑战:英伟达在测试中发现了上述问题,对芯片的性能和稳定性产生了影响。

GB200技术细节:

配置:每个GB200包含一颗72核的Grace ARM CPU和两颗Blackwell GPU,功耗为2700W。

封装技术:采用台积电的CoSoW 3D堆叠封装技术,通过RDL再布线层将两颗Blackwell GPU缝合在一起,然后与Grace CPU和其他元件共封装在硅晶圆上。

历史问题:之前GB200也曾因再布线层引组间电阻不均导致过热和互联信号失真,英伟达和台积电曾尝试通过设计调整来解决,但显然问题并未完全解决。

目前挑战:

未解决问题:此次重新设计后,GB200系统仍面临过热和互联失效的问题,需要进一步的测试分析来确定原因。

未来展望:有观点认为可以采用玻璃基板来替代RDL再布线层解决热失效问题,英伟达和台积电也表示将支持这一技术。

系统规格:

完整系统:一个GB200系统包含36个GB200 Superchip(共72个Blackwell GPU和36个Grace CPU),通过第五代NVLink互连。

机架设计:单个机架内有18个计算托盘和9个交换托盘,通过铜缆连接。

价格:单颗GB200售价约7万美元,一台42U服务器价格高达300万美元,约合人民币2166万元。

英伟达的应对:

液冷方案:在GTC大会上,英伟达展示了GB200的液冷散热样机,由鸿海子公司鸿佰提供。

市场影响:尽管技术问题频出,英伟达在AI芯片市场依然占据近90%的份额,客户仍在争抢GB200系统的市场先机。

尽管面临技术问题,但NVIDIA的AI芯片需求依然强劲,全球近90%的市场仍由其控制。NVIDIA表示:目前客户正在抢占GB200系统的市场先机,依然对未来的市场表现持乐观态度。随着技术问题的逐步解决,英伟达有望继续巩固其在AI芯片市场的领先地位。

免责声明:图文源自互联网或AI,仅为分享行业发展动态,不作任何商业用途,如有侵权,请联系删除。内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。