WEKA和Hammerspace发布了应对内存和SSD供应短缺及价格上涨的指南,这种短缺现象现已成为普遍问题。两家公司都专注于分层存储和更有效地利用现有介质。NetApp的博客同样提出了以分层为核心的六点计划。
DDN、戴尔、Komprise、VAST Data和VDURA都针对AI处理需求导致的内存和存储短缺问题提出了建议。AI处理优先使用HBM作为GPU内存,内存供应商将HBM生产视为必需品,这减少了DRAM制造产能,导致两者价格都在上涨。与此同时,超大规模云服务商和企业对近线存储的需求激增,但磁盘驱动器的制造量不足以满足需求。这促使买家将高容量QLC(4位/单元)SSD视为替代方案,而SSD需求目前正在上升,用于存储AI推理上下文内存数据。因此SSD短缺持续存在,价格也在上涨。
Hammerspace的12页《战略基础设施生存指南》指出:"这不是短期的市场周期,而是半导体产能向AI基础设施所需组件的结构性重新配置。对于基础设施负责人和存储架构师来说,实际结果是一个新的运营现实:价格波动持续存在,可用性而非预算可能成为扩展存储和计算的限制因素。"
购买者不应依赖任何单一存储硬件。他们应该采用灵活的"开放"数据架构,允许使用任何存储介质(TLC、QLC、HDD、磁带),包括GPU服务器本地SSD。所有这些介质类型和位置,无论是本地还是在公有云中,都应该纳入单一全局命名空间,实现自动化数据移动。
该公司建议采用五点计划:
将您已拥有的SSD用作共享存储的一部分
将现有存储容量聚合到共享文件系统中
在全局命名空间中包含云容量
合理配置闪存使用,不要被锁定在全闪存架构中
延长现有NAS的使用寿命并提高资产利用率
WEKA也发布了《NAND闪存短缺生存指南》。该指南指出:"这是令人不安的事实:大多数组织应对存储短缺的方式正是导致问题的原因——购买更多存储。但当供应受限、价格攀升时,'只是购买更多'不再是策略,而成了祈祷。"
它指出"GPU集群浪费了50-70%的容量,因为存储无法为GPU提供数据,而内存在推理过程中耗尽。"
该公司建议:"在您恐慌性购买更多闪存以应对短缺之前,问一个更严肃的问题:您当前的基础设施是否真的能以足够快的速度交付数据来保持计算的运行?"
如果不能,"WEKA的NeuralMesh可以解决架构瓶颈问题。与GPU协同定位的软件定义内存可实现90%以上的利用率,几周内部署完成,输出提升三倍——无需新的采购。"换句话说,基于真实访问模式,智能、自动、持续地在存储介质间进行分层。
WEKA对VAST Data进行了侧面攻击,称:"分解存储架构需要单独的存储基础设施——更多服务器、更多NVMe、在短缺期间需要采购更多组件。与计算基础设施协同部署的软件定义方法消除了这种依赖性。"
NetApp产品营销副总裁Jeff Baxter在博客中概述了SSD价格上涨和短缺应对计划的六个要点:
优化现有资产
通过分层优化数据放置
通过基础设施优化抵消存储成本
"及时"扩展容量
使用NetApp ONTAP在云间转移工作负载
评估整个生命周期的真实TCO
其他几家存储供应商也就应对DRAM/HBM和NAND短缺的最佳方式发布了建议。
Q&A
Q1:为什么会出现内存和SSD短缺?
A:主要原因是AI处理需求激增,优先使用HBM作为GPU内存,内存供应商将HBM生产视为必需品,减少了DRAM制造产能。同时,超大规模云服务商和企业对存储需求激增,而制造量不足,导致价格上涨和供应短缺。
Q2:WEKA的NeuralMesh技术有什么优势?
A:WEKA的NeuralMesh可以解决架构瓶颈问题,通过与GPU协同定位的软件定义内存实现90%以上的利用率,几周内就能部署完成,输出能力提升三倍,无需新的硬件采购。
Q3:如何应对存储短缺问题?
A:专家建议采用分层存储策略,使用灵活的"开放"数据架构,将现有SSD用作共享存储,聚合现有存储容量,在全局命名空间中包含云容量,合理配置闪存使用,延长现有设备使用寿命并提高资产利用率。
热门跟贴