哈喽,大家好,今天小墨这篇评论,主要来分析国产存储如何破解GPU空转难题,让百万元算力不再等待廉价数据传输。
一台价值数百万元的GPU服务器,每天有四小时在"发呆"等数据。这不是危言耸听,而是国内某大型智算中心曾经真实发生的事。
GPU算力按秒计费,每分钟闲置都是真金白银的损失,但传统存储方案却让这种浪费成了行业常态。
问题出在哪里?当大语言模型的训练数据以TB级增长,传统存储的"老毛病"彻底暴露了。数据被错误降级到慢速存储层,工程师不得不手动切换路径,企业为了避免性能下降只能堆砌昂贵的全闪存设备。这些隐性成本累积起来,让AI训练的总拥有成本居高不下。
2024年至2025年间,北京星辰天合科技股份有限公司推出的XEOS AI数据湖方案,用一套全新的存储逻辑给出了答案。
这套方案通过基于访问时间而非创建时间的智能分层机制,让热数据永远待在高速通道,冷数据自动归档到低成本存储池,GPU不再空转等数据。
传统存储让GPU算力白白浪费
最要命的是GPU高并发训练阶段。深度学习项目需要使用数千个GPU进行并行训练,如果存储系统的I/O延迟过高,GPU就会长时间等待数据,训练速度和效率都会受到严重影响。
2024年8月,中国移动云能力中心主办的智算存储论坛上,XSKY产品总监朱荣泽指出,GPU的显存技术从DDR演进到HBM,内存访问模式从"延迟敏感"转变为"带宽优先"。
HBM需要不断地从远端存储或本地存储加载数据,内存和数据传输之间的互联带宽,已经成为AI计算发展的主要瓶颈。
传统分层存储方案的三大痛点更是雪上加霜。第一是盲目流动,按照数据创建时间分层,高频访问的训练集可能因为"到期"就被降级到慢速混闪池,导致训练性能骤降。
第二是割裂命名空间,数据在不同存储层间流动需要手动切换路径或挂载点,稍有失误就会导致训练失败。第三是高昂隐性成本,企业被迫将更多数据保留在全闪存层,或者反复搬运降级数据回热层,推高了总拥有成本。
智能分层让数据自己找对位置
XSKY推出的AI数据湖方案,核心创新在于基于访问时间(atime)的智能生命周期管理。系统能够实时感知数据访问行为,精准捕获GetObject、HeadObject等操作。
每一次数据访问都会自动刷新atime,数据的分层计划会根据实际访问情况动态调整。高频训练数据集因为访问频繁,atime会不断更新,从而长期驻留在全闪热层。全闪热层具有高速读写的特性,能够为模型训练和推理提供稳定的高性能支持。
那些长期无访问的冷数据,则会自动流向低成本混闪池。混闪池采用SSD+HDD的架构,在保证一定性能的同时,有效降低了存储成本。
更重要的是,这套方案实现了统一命名空间下的高效分层架构。上层应用无需关心数据具体存储在哪一层,在统一命名空间下,数据的访问路径保持不变。这避免了用户手动切换存储层时可能出现的失误,降低了使用门槛。
当首次访问冷层数据时,系统会异步将数据缓存至热层。后续对该数据的访问将直接从热层读取,大大提高了访问速度。
每一次对缓存数据的访问都会刷新其过期时间,确保热点数据能够长期驻留在高速层。系统还支持通过批量HeadObject操作提前预热数据集,用户可以在需要使用某些数据之前,主动将其加载到热层,实现首次访问即达极致性能。
真实案例验证降本增效
2024年10月至2025年6月,XSKY为某头部AGI厂商和大型智算中心部署了AI数据湖方案。第一批交付了4个集群,总计约9PB容量。
第二批新增2个集群,同时扩容原有的3个集群,共计约46PB。在头部AGI厂商场景中,系统稳定承载周期性近2Tbps的写入,以及峰值5Tbps的突发读取,数据处理的时延严格控制在8ms以内。
在大型智算中心场景,系统在4个月内支撑超20PB的数据增长,读取峰值达149.34GB/s。数据预处理效率相较于原开源方案提升300%,彻底解决了GPU算力闲置的问题。
某智算中心GPU等待时间从日均4小时缩短至1小时,年增加模型训练迭代次数超50次。
经济效益方面,通过智能分层加混闪架构,客户存储TCO平均降低30%至60%。某智算中心避免了全闪存过度配置,年节省存储采购成本超千万元。
头部AGI厂商通过冷数据自动归档,减少30%全闪容量占用。系统支持在线扩容,无需停机,满足AI数据爆发式增长需求。某客户4个月内完成20PB数据扩容,未影响任何训练任务,避免因扩容中断导致的研发延误。
根据IDC发布的中国软件定义存储市场季度跟踪报告,XSKY星辰天合在中国整体的SDS市场份额中排名第五,是前五名厂商中唯一的专业软件定义存储厂商。
公司产品已在3000多家客户的企业级生产环境经受验证,涵盖政府、金融、运营商、科技、医疗、制造等关键领域。
热门跟贴