智东西
作者 程茜
编辑 漠影
为大模型而生的存储长什么样?
大模型爆发的三大堵点可归结为计算、存储、网络,其中存储在AI产业中的重要性不言而喻,它需要为海量多模态数据提供存储与高效管理,保障数据安全可靠,同时支持快速数据读取、并行计算、实时数据获取和缓存优化提升训练与推理效率。
在大模型产业飞速发展的同时,对存储的要求也水涨船高,存储系统在大模型时代正被改写。此前海外供应商占主导的全球存储市场也在被重塑,国内AI存储厂商在其中的地位愈发重要。
这也可以从一些权威组织的测评指标中看出来。去年,全球权威AI基准测评MLCommons组织首次推出了MLPerf存储基准测试(MLPerf Storage Benchmark),这也是目前首个唯一开源、公开透明的AI/ML基准测试。
上个月,该机构公布的MLPerf v1.0存储性能基准测试中,国内一家存储厂商崭露头角,其全闪存储产品在带宽、模拟GPU数量以及GPU利用率等关键性能指标上获得多项世界第一。
这就是成立于2016年的焱融科技,其最新推出的企业级全闪分布式存储一体机追光F9000X,实现了3节点存储集群的性能达到750万IOPS和270GBps带宽,可满足大规模训练、推理及高算力场景的需求。
焱融科技CTO张文涛谈道,大模型发展对存储系统在性能、稳定性和成本方面都提出了更高要求,这也正是其进行产品研发和优化的关键所在。
▲焱融科技CTO张文涛
大模型产业突飞猛进背后,作为国内AI存储厂商,焱融科技的突破点是什么?又是如何在存储产业中找到自己的站位?智东西与焱融科技CTO张文涛进行了深入交流,试图找到这些问题的答案。
一、拿下多项关键性能第一,剑指大模型训练优化
用数据说话,是检验产品性能的标准之一。
就在9月底,全球权威AI基准测评厂商MLCommons公布的MLPerf v1.0存储性能基准测试结果中,焱融科技榜上有名。测试结果显示,其产品全闪F9000X在带宽、模拟GPU数量以及GPU利用率等关键性能指标上,拿下了多项世界第一。
▲MLPerf Storage测试结果公开数据
在MLPerf Storage的测试中,包括3D-Unet、CosmoFlow和ResNet 50,焱融科技也是国内唯一一家参与了全部模型测试的存储厂商。
为了测试存储系统在支持机器学习工作负载方面的性能,测试规则中定义了存储系统可以采用单个计算节点运行多个ACC(Accelerators,加速器)进行相应模型应用测试,同时支持大规模分布式训练集群场景,多个客户端模拟真实数据并行的方式并发访问存储集群。
张文涛解释道,在大模型场景中,模型算力利用率(MFU)备受关注,在MLPerf对应的指标就是算力有效利用率(AU),MLPerf Storage要求AU达到90%,要求存储能使GPU利用率保持高位运行。在此之上,为了进一步体现存储支持模型训练的能力,存储系统需要尽可能提升其中单个计算节点中ACC的数量。
效率与成本,是大模型中的存储系统至关重要的两个点。这两点在MLPerf Storage的测试结果中都得到了验证。
测试结果显示,在分布式训练集群场景,焱融存储在所有三个模型的测试中,能够支撑的每个计算节点平均ACC数量和存储带宽性能均排名第一。
张文涛说,归根结底就是有效的算力利用率,只有存储足够快,在模型训练中,在存储中使用的时间越少,有效算力就越高。其次就是成本,单个存储节点提供的有效带宽越高,所需要的存储的集群规模越小,就意味着成本越低。
这项测试对于存储玩家的重要性不言而喻,既是存储系统的竞赛场,还是其客户选择合适产品的权威指南。
二、全闪F9000X,开启存储系统的大模型时代
存储系统对大模型具有极其重要的作用,关乎数据存储与管理、数据预处理、训练效率、推理性能、模型扩展等诸多方面。
但单从这些性能指标来看,我们可能无法直观感受到其关键性。那么,到底什么样的存储系统才能为大模型所用?
基于全球权威AI基准测评厂商MLCommons公布的MLPerf v1.0存储性能基准测试,其中提到了带宽、模拟GPU数量以及GPU利用率等指标。这些指标与大模型的训练、推理息息相关。
这一波大模型热潮的基本特征之一就是,既需要处理海量数据保证训练效率,同时在实际应用中,大模型需要快速对输入数据进行推理给出结果,这之中的关键就是——高带宽,高带宽存储可以实现快速数据传输、实时响应,同时面对大模型参数规模越来越大、多模态数据增加等情形,高带宽也可以支持其模型运行。
然而,部分存储系统受限于硬件性能、系统架构、并发访问压力过大,一定程度上会影响数据处理效率、占用存储空间。
同时,在给定的训练模型和GPU型号下,存储系统能够支持的GPU数量也是衡量其性能的关键指标之一。
通过模拟GPU数量,能在部署中评估不同存储配置下的大模型训练性能和成本效益,帮助企业选择最适合的存储和GPU组合。
反之,如果存储系统模拟GPU数量不够,不仅会使得模型的训练时间大幅延长,还会导致模型收敛困难,同等规模的GPU集群下,需要引入更多的存储节点才能满足计算的需要,存储的成本会随之提高,同时也在一定程度上限制模型向更大规模和更高复杂度发展。
GPU利用率高则可以加速矩阵运算、张量运算等大量复杂计算任务,减少训练周期的同时,让硬件资源被充分利用起来,降低能源消耗。而低GPU利用率可能导致GPU长时间处于低负载运行状态,GPU 算力和能源浪费较大。
洞察到这些发展趋势的焱融科技,去年年底立项,今年9月拿出了面向大模型时代的里程碑产品——焱融全闪F9000X。
该产品搭载了其自研的高性能分布式并行文件存储YRCloudFile,经实测,3节点存储集群的性能可达到了750万IOPS和270GBps带宽,满足大规模训练及高算力场景的需求。
在带宽、模拟GPU数量、GPU利用率这三大关键指标中拿下第一的焱融全闪F9000X,无疑成为大模型训练、推理过程中选择存储系统的最优解之一。
这背后的关键正是焱融科技所做的针对性优化。
为了保证存储系统的性能匹配大模型训练、推理业务场景的需求,张文涛称,面向高性能存储场景,性能就是他们最优先考虑的。研发人员进行了NUMA的亲和性、端到端的zero-copy(零拷贝)等优化。
但对于企业而言,一方面,存储系统的性能固然重要,另一方面让存储系统变得好用、易用也同等关键。
因此,焱融科技还打造了相对应的解决方案。大模型时代,企业需要基于多个智算中心进行大模型训练、推理,那就意味着企业的数据需要在多云间进行流转。张文涛解释说,数据具有粘性,采用对应的解决方案能帮助加速数据的多云流转,减少企业使用和运维的复杂度。
大模型在问世之后,基础设施投入巨大,因此企业对成本更为敏感,存储系统就需要兼顾性能和降本。焱融科技通过全闪和大容量存储相结合的形式,拿出了高性能、低成本的解决方案。
综合来看,整个大模型产业的急速发展,对存储系统提出了更高的要求,性能、稳定性和成本成为存储厂商必须越过的门槛。
深谙技术创新与企业需求的焱融科技,在拿出更强计算能力、更高性能数据存储的方案后,为大模型时代的企业探索出了一条行之有效的路径。
三、专注文件存储,9年积累迎大模型挑战
纵观整个存储市场,当下像焱融科技这样专门针对大模型做优化的存储厂商并不多,而焱融科技能在大模型时代,从巨头环伺的存储赛道脱颖而出,其关键就在于——是国内少数几家专注于文件存储的AI存储企业之一。
2016年前后,私有云崛起,开源云计算管理平台OpenStack爆火,开源容器编排引擎Kubernetes刚面世。这一背景下,焱融科技成立,并将业务主线定位为文件存储,目前是SDS赛道唯一一家专注于文件存储的企业。
当时,这一赛道的玩家屈指可数,大部分存储厂商将目光投向了块存储、对象存储等技术路线。块存储主要面向云计算、虚拟化场景;对象存储则常用于云存储服务。然而,面对大模型训练和推理过程中对海量文件要求极致性能、高并发访问、频繁的元数据操作等 AI 工作负载时,这两类存储的表现相对有限,文件存储则具备了独特的优势。焱融科技对于市场趋势的独到判断,使其坚定不移的成为少数派,也奠定了其在大模型时代突出重围的基础。
焱融科技认为容器化存储会延续着OpenStack的发展趋势:与OpenStack引发分布式块存储市场火爆类似,Kubernetes将引爆文件存储市场。
AI对于数据量、存储需求增长的发展趋势下,文件存储的优势逐渐凸显,其与自动驾驶、大模型领域的企业需求一脉相承。在这之后,焱融科技也将业务聚焦到了AI存储,一步步将文件存储与大模型等高性能计算场景的需求相结合。
此后,坚定瞄准AI行业。自2018年起,焱融科技开始大量上线大规模集群,成功服务了包括智谱AI、智源研究院、中国移动、海尔、美的在内的众多行业领军企业,助力其 AI 业务发展。2021年,入局自动驾驶行业,专门成立了智能驾驶部门,与多家知名的自动驾驶技术公司达成合作,服务图森未来、元戎启行、理想等客户。在对技术路线的深刻洞察和坚持不懈的追求背后,焱融科技的成功秘诀之一是卓越的执行力。
早在2022年6月,焱融科技专为AI和高性能计算(HPC)场景设计的焱融追光F8000X系列全闪存储,迅速获得AI公司的高度评价。同年,随着ChatGPT的震撼问世,焱融科技在短短四个月内推出了大模型场景的存储解决方案,展现了其在AI存储领域的领先性和前沿性。2024年,公司进一步推出了新一代全闪F9000X系列,不仅在性能上实现了重大突破,更在成本效益上实现了优化,巩固了其在AI存储领域的领导地位。
这款产品不仅是该公司的里程碑之作,并在行业内树立起大模型存储的新标杆。2023年至2024年,焱融科技的全闪产品成为公司营收增长的核心引擎,有力推动了整体业绩的提升和持续发展。
相比于老牌传统厂商,作为一家创企,焱融科技的一大优势在于拥有强大的自主研发能力,这不仅确保了产品的安全性和可控性,而且赋予了我们产品极高的灵活性。深入理解客户的业务需求,快速响应并针对性地解决痛点。与大型存储企业相比,焱融科技的优势在于能够更紧密地与 AI 企业合作,能够迅速把握问题核心,并迅速提出前瞻性的解决方案,这正是焱融科技在竞争激烈的市场中独树一帜的原因。
可以看出,焱融科技的布局踩中了AI产业发展的每个节点,快速捕捉应用对存储的核心诉求,保持专注,并一步步通过与客户互相打磨产品奠定了自己的技术基座。
而当我们回顾这家公司的成长会发现,当多数同行纷纷涌入那些看似前景光明、人满为患的传统存储赛道,焱融科技致力于钻研一种在当时并没有完全展现出市场发展前景的存储技术与模式,一步步积累了技术与客户,与AI对数据存储的高要求完美契合,成长为存储行业在AI时代的璀璨之星。
结语:焱融科技率先布局,乘上大模型风口
大模型落地应用加速,AI的发展又依赖文本、图像、音频、视频等大量多模态数据的处理,高性能存储系统的性能直接关系到数据处理的效率。环环相扣的技术链条,使得这一产业的竞争逐渐激烈。
拥有坚实的技术底座格外重要。焱融科技不仅是国内唯一能在公有云平台上提供高性能存储服务的第三方存储厂商,还与智谱AI等大模型行业的核心玩家达成合作,这也意味着其产品核心竞争力已经得到了市场认可。
在未来,以焱融科技为代表的国内AI存储玩家,在将近10年的技术布局下,已经乘上大模型风口,在AI存储市场获得更大的发展空间。
热门跟贴