高带宽内存(HBM)的激增需求正在影响DRAM内存芯片和NAND存储器的成本和可用性,进而推高了从笔记本电脑到AI数据中心部署的所有成本。这一由多重事件引发的状况可能需要数年时间才能缓解,同时也正在改变HPC(高性能计算)和AI(人工智能)团队构建存储集群的方式。

如果你今年计划购买新笔记本电脑,可能需要额外准备数百美元——标准DDR4和DDR5内存套件的价格在过去六个月内上涨了 200% 以上。与 DRAM 和HBM 在同一工厂制造的NVMe驱动器,其价格在某些情况下也上涨了100%以上。用于基于Nvidia和AMD GPU的AI集群中的 HBM 成本也在上升。

打开网易新闻 查看精彩图片

价格上涨和短缺有多个根本原因。主要原因是三星电子、SK 海力士和美光科技优先考虑 HBM 产能,以满足 AI 数据中心的激增需求。据美光介绍,每生产 1GB HBM 所需的晶圆产能约为标准 DRAM 的 3 倍。这种转向 HBM 导致低利润率消费产品(如 DRAM 和 NVMe 驱动器)的产能减少。

还有一个原因是,由于之前的供应过剩问题以及 2022 年和 2023 年的产能缩减,制造商的内存和NVMe产能受限。制造商在COVID-19疫情期间小型电子产品需求激增后扩大了产能,但需求未能持续,促使供应商限制制造产能以防止价格暴跌。

再一个因素是 Nvidia 决定转向LPDDR(低功耗双倍数据速率)内存,这种内存传统上主要用于智能手机和其他手持设备。这一转变相当于增加了一个主要智能手机厂商的需求量,Counterpoint Research研究总监黄智善去年 11 月表示:“这对供应链来说是一次地震般的转变,供应链无法轻易吸收这种规模的需求。”

这种内存和 NVMe 制造产能的缩减,结合 AI 驱动的 HBM 需求激增和LPDDR 内存转移,现在正困扰着芯片制造商。虽然建设内存或NVMe工厂的成本和时间消耗不像采用最新工艺的芯片制造工厂那样夸张,但仍然需要数月的规划和数年的建设时间。

打开网易新闻 查看精彩图片

短缺问题已经持续数月,制造商正在采取措施缓解这一状况。例如,美光三年前在爱达荷州开始建设其新的 ID1 设施,但目前该设施计划要到 2027 年中期才能投入运营。据美光移动和客户端业务部营销副总裁Christopher Moore介绍,到 2028 年之前,ID1 设施不会对 NAND 供应短缺产生实质性影响。

“整个行业都处于短缺状态,”Moore在最近接受科技媒体 Wccftech 采访时表示。“这不是美光的问题,而是整个行业的问题——我们和我们的同行或竞争对手都在竭尽全力服务这些市场细分领域,但供应就是不足。”

虽然 NAND 制造商正忙于建设新生产线,但制造工艺限制却在阻碍他们前进。Moore 表示,结果是 DRAM 短缺可能会持续到 AI 繁荣期开始回落之后。“这确实是个不幸的情况。”他补充道,“但我认为人们需要理解的是,我们仍在服务消费市场。”

VAST Data 市场(GTM)执行副总裁 Phil Manez 表示,短缺问题已开始影响 HPC 和 AI 客户。“客户的语调从以前对所需NVMe 存储类型非常‘确定’,迅速转变为‘你能给我什么,能够在合理的交付时间内可用?’”他说。“我们看到客户在积极采购,打电话询问大量容量的情况。”

NVMe 驱动器的销售额预计将从2025 年的全球 1150 亿美元增长到 2030 年的 4050 亿美元。

Manez 表示,短缺问题并未导致客户撤回建设大型AI和HPC集群的决定,因为历史上存储支出只占其他组件支出的一小部分,尤其是相对于CPU和GPU,更不用说熟练人才及其薪水了。

然而,成为NVMe驱动器存储介质的NAND晶圆短缺正在促使客户考虑改变其存储集群的架构方式。“某些驱动器尺寸需求量更大,某些需求量较小,”Manez告诉媒体。“我们正在与客户讨论‘您最初可能考虑的是这个驱动器容量。如果您考虑重新格式化集群或重新构建系统以适应我们能获取到的产品,您感觉如何?’”

打开网易新闻 查看精彩图片

VAST Data 的软件定义存储架构专为 NVMe 闪存(特别是 QLC——四层单元闪存,效率最高的闪存类型)而设计,尽管它也可以在其他类型的 NVMe 驱动器上运行。在某些方面,它比那些能够完全或部分运行在传统磁盘上的并行存储供应商受到的影响更大,尽管 Manez 指出,机械硬盘也有其自身的供应问题。

然而,在NAND短缺期间,VAST正将其整体存储效率作为竞争优势进行推广。“如果您看我们的效率能力,我们拥有地球上最高效的纠删码。”Manez 说。“因此,当您构建 VAST 集群时,我们的纠删码开销在大规模情况下低于3%,这意味着我的原始容量转化为可用容量的比例要高得多。我们还拥有地球上最先进的数据缩减技术。我们使用重复数据删除、压缩和基于相似性的数据缩减这几种技术的组合。”

基于相似性的数据缩减使用算法查找与其他数据片段相似的数据片段。VAST 不存储这两个数据片段的全部内容,而是使用哈希算法计算它们之间的差异,并存储差异。据 Manez 介绍,这可以将数据压缩高达 25%。当与其他形式的数据缩减(包括压缩和经典的数据去重)结合时,VAST 声称原始数据总量可减少 50%。

HPC和AI存储供应商DDN也在适应 NAND 短缺。这家位于加州查茨沃思的公司表示,它可以使用 NVMe、HDD 和一种基于 SATA的较老类型 SSD 的组合,后者速度较慢且容量较低。

“AI 依赖于越来越快、可扩展且成本效益高的数据基础设施,全球 NAND 短缺使传统的依赖闪存的架构难以维持,”DDN 首席执行官兼联合创始人 Alex Bouzari 在 12 月的新闻稿中表示。“DDN 的 EXAScaler 和Infinia 平台允许客户使用任何存储介质实现完整的 GPU 性能,保护他们的预算、供应链和 AI 路线图在未来几年不受影响。”

该公司表示,使用多种驱动器类型的灵活性有助于降低与依赖 NVMe 驱动器的存储供应商相比的风险。“通过这些创新,组织可以在减少高端 SSD 需求 35-65% 的情况下实现相同或更好的 AI 成果,将存储总CAPEX(资本性支出)降低 40-70%,并将OPEX(运营性支出)降低30-60%。”

Pure Storage 建议客户和潜在客户与其存储供应商保持密切沟通,以确定NAND短缺将如何影响其项目。“没有人拥有水晶球,但目前看来,NAND 定价不太可能很快下降。”该公司在最近的一篇博文中写道。“拥有严格供应链实践的供应商可以缓冲一些波动,但没有谁能完全免疫全球趋势。”

Pure表示,客户应该规划他们预期的存储容量增长,并尽早、频繁地与存储供应商接洽。提前购买将有助于客户锁定订单并确保他们所需的容量。该公司还建议考虑其他消费模式,例如使用存储即服务。“对于IT领导者来说,最好的方法不是紧急或恐慌——而是清晰、规划和与在波动环境中具备持续交付能力的供应链韧性供应商合作。”示。

打开网易新闻 查看精彩图片

在内存和 NAND 短缺的阴霾中看到一线希望的是 Hailo,该公司开发用于边缘应用场景的AI加速器。该公司表示,其Hailo-8和Hailo-8L芯片完全消除了对 DRAM 的依赖。

“通过将完整的推理流水线保持在芯片上,Hailo-8/8L消除了系统中成本最高且供应受限的组件。”Hailo 首席技术官 Avi Baum 通过电子邮件告诉媒体。“实际上,避免使用 DRAM可以使每台设备的物料清单(BOM)成本减少高达 100 美元,同时还能提高电源效率和系统可靠性。”