公众号记得加星标⭐️,第一时间看推送不会错过。
如果你想涉足DRAM和闪存市场,最好做好承受过山车般波动的准备。因为这些行业的繁荣与萧条周期,真可谓惊心动魄。
正当GenAI市场在2022年11月迎来ChatGPT主流化的关键时刻时,此前近三年受新冠疫情推动的个人和数据中心基础设施建设热潮不仅没有消退,而且随着整个IT行业需求的萎缩,DRAM和闪存的价格也下跌了一半甚至更多。内存和闪存厂商遭受重创,库存积压严重。
如今推动 GenAI 繁荣发展的超大规模数据中心运营商、云构建商和模型构建商可能都希望自己有时光机,因为现在对 DRAM 和闪存的需求远远超过了供应,价格再次飙升至天价。
在DRAM方面,全球超过一半的服务器需要配备数百GB的HBM堆叠式内存,以满足数百万台服务器的需求。为了制造八个高HBM3内存堆叠,每个最终能正常工作的堆叠都需要消耗三个DRAM芯片,因为堆叠过程中经常会出现问题,而且无法将废弃堆叠中的内存拆解并重新利用。堆叠越高,获得正常工作的堆叠就越困难,良率也越低,而且随着每一代新的HBM的出现,其固有的良率也在不断降低。因此,尽管HBM需求旺盛,但它会消耗大量的芯片,而这些芯片原本可以分配给高性能服务器DDR5内存,却被闲置在内存制造厂中。
目前困扰IT行业的闪存短缺问题与DRAM短缺问题有所不同。与DRAM短缺类似,闪存代工厂——包括铠侠(Kioxia)、美光科技(Micron Technology)、三星(Samsung)、闪迪(SanDisk,铠侠的代工厂合作伙伴)、Solidigm以及长江存储(YMTC,如果算上中国本土供应商的话)——的产能无法迅速提升。他们会根据市场情况调整生产,以追求利润最大化。而问题的关键在于,市场需求远远超过了供应。
“你知道2023年情况非常糟糕,实际上是内存市场历史上最严重的低迷期,”Solidigm产品和市场营销主管Greg Matson告诉The Next Platform。当时,Solidigm容量最大的闪存盘容量分别为30TB和60TB。“2023年9月底,产品开始恢复出货,然后在2024年第一季度,产品突然开始热销。与此同时,我们也在生产最大容量的闪存盘,我们当时认为这可能只占我们需求的一小部分。但事实证明,它迅速成为我们增长最快的需求之一。”
这对 Solidigm 及其在闪存芯片和闪存盘领域的同行来说,无疑是一个令人欣喜的困惑。毫无疑问,这些公司在 2024 年看到了闪存存储收入的快速增长,这种增长势头一直持续到 2025 年,现在又延续到了 2026 年。过去两年(2023 年底与 2025 年底相比),由于闪存盘的需求超过了供应,这些闪存制造商从中受益匪浅,价格上涨了 50% 到 70%。
是什么驱动了这种需求?答案是:用于英伟达所谓的“AI工厂”以及我们仍然称之为“AI超级计算机”的分层存储。(数据中心一直以来都是信息工厂。)虽然如今以千兆瓦为单位签订合同的AI超级计算机,其预算中存储并非主导因素,但存储——尤其是HBM、DRAM和闪存——对于AI超级计算机架构而言,其重要性不亚于原始的串行、向量和张量计算。
为了好玩,马特森向我们讲解了他最近用来向 Solidigm 高层管理人员解释当前情况的数学方法。
英伟达AI工厂架构包含四层存储,分别以字母G表示,个中缘由尚不明确,或许是因为英伟达宇宙中的一切都服务于GPU。G1层是GPU加速器封装上的HBM内存,G2层是主机服务器上的DRAM内存。建议G2层的容量应为G1层的2到4倍,以便在AI处理大型上下文窗口时能够吸收G1层的溢出数据。
闪存在接下来的两个存储层级中发挥作用。G3 存储是节点级存储,对于 Nvidia NVL72 机器或 AMD Helios 机架来说,它指的是机架级节点。G3 层用于存储创建并定期进行检查点维护的中间处理数据。检查点维护至关重要,因为 AI 超级计算机的 GPU 和 XPU 之间需要同步通信,这意味着如果其中一个发生故障,则可能需要数天甚至数月的计算也会失败。通过定期进行检查点维护,可以将中间数据重新加载到 GPU 中,并在故障点之前重新启动计算,而无需从头开始 AI 训练。
随着 Vera-Rubin 平台中的“Vera”VC100 CPU 和“Rubin”R200 GPU将于今年晚些时候推出,Nvidia 将推出一个新的 G3.5 层级,称为推理上下文内存存储,它基本上使用 BlueField-4 DPU 作为存储控制器,并将其放置在节点/机架内部,以获得更快的速度,并对数据进行一些本地处理。
在英伟达人工智能超级计算机架构中,G4 级存储是指将对象和文件存储在节点或机架级系统(实际上就是一个大型节点)外部的网络存储。VAST Data 对其架构进行了调整,使其能够承担 G3 级存储的检查点功能,这是一个有趣的架构选择,可以为人工智能系统架构师节省一些成本。
我们认为英伟达架构应该包含一个基于超大容量硬盘的G5级存储。这符合超大规模数据中心和云服务提供商的做法,他们目前购买了全球约95%的硬盘出货量。据我们所知,英伟达参考架构中并没有G5存储层。
既然如此,我们来算算闪存的容量。对于一个使用英伟达“Grace”GC100 CPU和“Blackwell”B200或B300 GPU的1 Gbps系统,根据系统配置和散热方式的不同,它可以支持50万到60万个GPU。Matson取了55万作为平均值,这个数字看起来比较合理。英伟达建议每个GPU在节点中配备15 TB的G3闪存用于检查点和其他功能,并为每个GPU配备30 TB的外部网络存储用于存储海量数据。
计算一下,对于 1 吉瓦的安装,需要 8.5 艾字节的内部闪存容量和 16.5 艾字节的网络闪存容量,总容量为 25 艾字节。
在网上查阅了各大GPU和XPU制造商的估算和声明后,我发现2023年大约出货了300万个计算引擎(这里指的是插槽),2024年大约出货了700万个,2025年大约出货了1000万个。以英伟达的标准为准,每个GPU/XPU配备45TB闪存,这意味着2023年这些AI超级计算机大约消耗了135EB的闪存,2024年大约消耗了315EB,2025年大约消耗了450EB。
这可是大量的闪存需求啊!而且到了2026年情况会更糟,因为需求会大幅增长,而供应增长却十分缓慢,价格也会随之上涨。闪存芯片和闪存盘制造商将会大赚一笔。
https://www.nextplatform.com/2026/02/17/ai-eats-the-world-and-most-of-its-flash-storage/
(来源:编译自nextplatform)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4321期内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴