机器之心报道

编辑:佳琪

发言人将「工程迭代」称为「正常且在意料之中」。

今年的的 GTC 大会,英伟达将 AI 芯片的标杆推向了难以想象的高度。

为了帮助世界构建更大、更智能的 AI,英伟达首先拿出了世界上最先进的 GPU—— Blackwell 系列。

打开网易新闻 查看精彩图片

Blackwell 拥有 2080 亿个晶体管,在同一颗芯片上集成了两个 GPU。其两块小芯片之间的互联速度高达 10TBps,彻底解决了内存瓶颈和缓存问题。

与前代产品 H100 相比,Blackwell 的性能提升同样令人瞩目,达到了 Hopper 的 30 倍。

打开网易新闻 查看精彩图片

以训练一个 1.8 万亿参数的 GPT 模型为例,如果使用 Hopper,需要 8000 个 GPU,消耗 15 兆瓦电力,训练 3 个月;而换成 Blackwell,仅需 2000 个 GPU,就能在同样的时间内完成,能耗只需 4 兆瓦,实现了性能和效率的双重突破。

Blackwell 的量产问世,无疑将为 AI 模型训练和人形机器人的发展注入强劲动力,对整个 AI 应用生态也将产生深远影响。

打开网易新闻 查看精彩图片

自 3 月份发布,6 月份宣布投产以来,Blackwell 最初定于 2024 年第二季度发货,全球科技公司都在疯狂求购。

但在原定的发货时间,传出了 Blackwell 因为良品率低,将推迟发货的消息。

当时,黄仁勋在 2025 财年第二季度财报电话会议上表示,设计上的问题都已修复,有望在第四季度实现量产。

现在,英伟达的客户又在担心一个新问题,当芯片连接到 Nvidia 自己的服务器机架时,会过热。

打开网易新闻 查看精彩图片

据 The Information 报道,英伟达 Blackwell GPU 在 72 核的服务器上暴露了过热隐患。这些服务器每个机架的功耗预计高达 120 千瓦,过热问题不仅限制了 GPU 的性能,还可能损坏组件。为此,英伟达不得不多次重新评估服务器机架的设计方案。

打开网易新闻 查看精彩图片

这引发了谷歌、Meta 和微软等大客户对能否按时在其数据中心部署 Blackwell 的担忧。

为此,英伟达已要求供应商对机架进行多项设计变更,进一步推迟了预期发货日期。该公司发言人将「工程迭代」描述为「正常且在意料之中」。

打开网易新闻 查看精彩图片

此前,由于 GPU 良率不高的问题,Blackwell 的量产计划就推迟了一次。

今年 8 月,有媒体称 Blackwell 存在设计缺陷。由于 Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。

这种「二合一」的创新,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层,以实现约 10 TB/s 的数据传输速。

然而,由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲,从而引发系统故障。

打开网易新闻 查看精彩图片

对此,黄仁勋表示:「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下」。

更多详情可参见:《100% 英伟达的错:黄仁勋确认 Blackwell 缺陷修复,明年初出货》

最终修订版的 Blackwell GPU 直至 10 月底才开始量产,这意味着英伟达最快也要等到明年 1 月底才能向客户交付这些处理器。

而 Blackwell 正在面临前所未有的需求。近期,黄仁勋在摩根士丹利举办的投资者会议上透露,Blackwell 已经全部售罄。摩根士丹利分析师 Joe Moore 指出,英伟达高管称,Blackwell GPU 产品的订单积压已达 12 个月。

AWS、CoreWeave、谷歌、Meta、微软和甲骨文等科技巨头,已经采购了英伟达及其制造合作伙伴台积电在未来四个季度内能生产的所有 Blackwell GPU。

这种旺盛的需求表明,尽管 AMD、英特尔以及各大云服务商正努力分得一杯羹,英伟达在 AI GPU 的领导地位还将进一步巩固并扩大。

作为人类历史上估值最高的股票,英伟达将于本周三公布收益。与 8 月份的情况相似,在类似的时间节点,又传出了有关下一代 Blackwell 芯片出问题的消息。

打开网易新闻 查看精彩图片

在英伟达承认 Blackwell 存在设计缺陷导致良品率低后,当时刚创下历史新高的英伟达股票收跌 2.81 %,又回落到了 140 美元以下。

打开网易新闻 查看精彩图片

这一次,英伟达的股价又会发生怎样的变化呢?

https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servers

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers