作者:李一
6月24日,德国汉堡,ISC 2026大会正式揭晓IO500最新榜单。中科曙光ParaStor F9000分布式全闪存系统斩获全节点和10节点榜单双料第一,再次刷新世界纪录。
榜单信息显示,该存储系统在实测中带宽性能最高提升超247%,元数据性能最高提升超126%,将世界纪录最高提升超171%。至此,中国存储在该领域最具权威性的国际评测中完成“屠榜”,国产先进存力全面登顶世界舞台。
全栈国产化自研,中国存力引领国际标准
当前,中国存储产业正经历由AI算力需求驱动的“超级周期”,产业格局从“国产替代”向“全球并跑”加速转变。国产厂商在国际榜单中渐次冲高,不仅折射出中国存储在全球市场上的领先身位,更预示着国产先进存力正在完成新一轮标准引领。
在大规模AI计算场景中,存储系统是释放算力效能的关键底座。今年初,《政府工作报告》提出实施超大规模智算集群、算电协同等新基建工程,国产算力厂商正通过计算系统优化加速弥补单卡算力差距,存力瓶颈成为这场算力竞赛中亟待攻克的一环。
据悉,此次登顶IO500的ParaStor F9000,在硬件与软件层面均实现全栈自主研发。该系统与传统存储产品的数据通路设计不同,打破了算力和存力的边界,让存力平台不再局限于数据存储,而是深度介入AI整个业务流水线中,从而实现AI计算全流程加速。
这种“AI数据工厂”的创新设计,有效避免了“存力不足、GPU空转”的集群算力困境。
根据实测数据,曙光ParaStor F9000可以将AI推理时延降低80%,训练速度提升4倍,万亿参数大模型的训练周期缩短60%以上,综合性能指标远超国际平均标准。
生产型榜单实测,万卡计算集群长稳验证
作为国际权威的生产型榜单,IO500的实测成绩不仅为国产存储自研技术含金量盖下红章,另一方面也成为高性能计算环境下存力实战表现的观察窗口。
据公开资料,不同于侧重理论峰值的跑分榜单,IO500严格按照真实业务场景的配置和负载进行测试,其成绩直接反映存储系统在实际生产环境中的性能表现和业务支撑能力。ParaStor F9000在严苛的高并发业务测试环境下,持续性能、稳定性与扩展能力均达到全球领先水平。
有业内人士指出,当前AI训练数据动辄达到PB级,且包含大量小文件,这要求存储具备极高的并发访问能力和横向扩展能力,以支撑成千上万个计算节点同时发起数据请求。另外在实时推理场景中,存储系统也需具备高IOPS和低延迟,以保障高并发场景下的用户体验。
值得注意的是,ParaStor F9000目前已在曙光scaleX万卡超集群中长稳运行超一年,让该集群长期可用性达到99.99%。而且根据本次实测数据,ParaStor F9000全节点带宽达26888.39GiB/s、元数据性能232754.76kIOP/s,大幅刷新世界纪录。面向大模型训练、科学计算与数据分析等实战场景,国产存储真正经受住了极端并发访问与海量数据吞吐的考验。
系统级架构创新,中国方案走向世界舞台
在大模型训推过程中,集群的响应速度和结果精准度,不仅需要计算和存储部件的单点性能支撑,更要求存算一体化的深度融合,乃至网络传输和上层应用的系统级方案。
近年来,国产AI集群规模持续扩张,以中科曙光为代表的头部厂商在大算力工程实践中快速突围,一方面将国产算力带入“万卡级”新台阶,另一方面也在“存算传用”全链路中实现整体跃迁。随着集群系统耦合度持续加深,国产先进存力也正在加速完成价值转化。
比如在曙光存储的三级协同架构中,“芯片级协同”对网络(IB/RoCE)、CPU、内存和 NVMe 闪存做了全对称均衡设计,让每条IO都走在最优路径;“软硬件协同”则将内存、网络、NVMe 按照CPU核均分,实现带宽/IOPS/时延按需可调;“AI应用协同”可以将关键数据直通GPU显存、向量检索与KV Cache专项加速等,直接给到应用场景极致效率。
这种系统级机构创新,已在AI集群应用中孵化出一系列世界级成果:搭载ParaStor F9000的scaleX万卡超集群,将蛋白质折叠模拟速度提升3到6个数量级,某材料筛选模型将筛选时间从数年缩短至数天,并完成了414.7亿原子规模的分子动力学模拟,打破该领域世界纪录。
在全球AI产业系统化比拼中,国产存力底座的崛起,正有力带动更多算力集群和前沿AI应用跑出加速度。当国产存储站上世界舞台中央,下一站,正是中国AI方案群星闪耀时。
供图/中科曙光
本文仅代表作者观点,不代表本刊立场。
热门跟贴