Gartner预计,到2028年,企业软件应用程序包含具备自主性AI从不到1%提高到33%,30%的企业机构将把数据变现或数据⼊表纳入其数据战略。数据对于企业将越来越重要已经成为共识;另一方面,随着生成式AI的应用不断涌现,其训练、推理所产生的数据量也在不断增加。
从本质上看,人工智能的发展离不开算力、算法、数据这三大要素,算力的需求,以及算法的优化仅是一方面,当下对于人工智能发展来说,最迫切的需求在于高质量的数据集。
AI、数据要素衍生存储新需求
人工智能在重塑各行各业的过程中,作为底层支撑的数据中心也再被人工智能重构着,IDC向着AIDC迈进的过程中,作为承载数据的“媒介”,存储行业也再发生着变革。
在数据中心的这场变革中,数据中心在逐渐“回归本质”,在经历过以“人”为中心,以“服务器”为中心之后,数据中心真正来到了以“数据”为中心的时代。
从整个IDC行业发展上看,目前IDC产业发展可以大致分为算力、运力、存力三个部分。关于存力部分,今年中国算力大会上,中国信息通信研究院院长余晓晖曾指出,在过去的一年中,中国存力规模持续扩大,先进存力占比不断提升。具体来看,截至2023年底,中国存力规模达到约1200EB,同比增加20%;先进存储容量占比超过25%,同比增加20%。
中国电子技术标准化研究院发布的《AIGC数据存储研究报告》(以下简称《报告》)中指出,AIGC促使“以数据为中心”的趋势更加凸显,数据的按需流动和存储是支撑这一划时代技术变革的关键基石之一。
在浪潮信息存储首席架构师孙斌看来,随着AI应用的不断发展,以及国家层面主推的数据要素市场化进程的推进,数据的重要性会越来越高;与此同时,对于存储而言,会有越来越多近数据计算需求的涌现,而这些需求也进一步要求了数据在调用过程中的速度,“就浪潮信息观察来看,我们认为为了满足近数据计算的需求,需要将数据存储在计算场景更近的地方。”孙斌指出,“这也就导致了原先数据存储架构已经不能满足当下数据应用的需求,我们需要构建新的存储架构来满足需求。”
从当下用户的需求来看,目前存储行业已经不仅仅是解决数据的存储就足够的了。一方面,存储还需要具备并行存储的能力,以及解决数据流动的问题,并在此基础上,为了满足用户对速度的要求,还需要提升数据访问的效率;
另一方面,随着大模型应用的落地,无论是企业内部产生的数据量,还是社会公共数据量都呈现出几何倍数式增长,如何做到更高效的存储,节约数据存储空间,也是企业在完成数据创造价值的同时,实现降本增效的过程中,不可避免的话题。
除此之外,《报告》中还指出,AIGC场景下,存储面临性能、效率和韧性方面的挑战,存储底座需要“六维”协同并进:“六位一体”画像,即需要具备数据流动(富元数据管理)、处理(数控分离、智能缓存优化和多核并行优化)、共享(非结构化融合互通)、容纳(4U60、5U105高密设计、QLC)、安全(故障恢复,系统故障预测)、管理(全局文件系统)六种能力,从产品和方案上满足AIGC对存储的需求。
从介质到架构,存储行业的变革
新的需求自然也就推动存储行业向前迈进,存储架构进入了变革的时期,存储系统已经不再是单纯的数据存储容器,而是成为了推动AI发展的核心组件,为了提高 GPU 的利用效率, 存储系统必须能够提供 TB 级的高带宽和百万级的高 IOPS, 以确保模型训练的高效运行。
存储行业不能光解决数据访问性能、容量的问题,还要解决数据流动的问题,“若想解决数据流动的问题,数据中心内部就需要一套全新的存储架构,支撑混合负载,并通过一套系统,统一各个来源的数据(比如交换来的、采集到的、合成数据等),实现数据全生命周期的应用。”孙斌指出。
以清华大学的某个生命科学研究项目为例,在研究过程中,研究人员会在小鼠血液中加入荧光剂,然后会使用RUSH中的28台相机,以每秒30帧、连续72小时的方式对小鼠进行拍摄,最后将这些图片拼接成三维图像序列。
由于小鼠是活体的,其血液无时无刻不在流动,相机需要去追踪每一个细胞的流动曲线,即使出现一帧的丢失,也会让研究人员无法跟踪到全过程,3D成像的拼接也无从谈起,会导致耗时、耗资巨大的拍摄项目功亏一篑。清华大学范静涛表示:“清华脑科研项目对于存储的要求不仅在于容量,更大的挑战是存储要实时在线,不能丢帧。”
除此之外,RUSH脑成像项目对于存储系统所带来的挑战还有很多。比如,RUSH脑成像系统的摄像仪器每秒钟会产生840个文件、每个文件24MB,这些海量的小文件非常考验存储系统的处理能力;又如,在某些生命科学成像观测中,长达72小时的观测会产生海量的文件,而且从第一个文件到写满,不能丢帧,这就需要确保长时间的稳定写入;再如,RUSH-II无法采用冷数据备份,所以需要采用创新数据冗余机制,确保数据不丢失。
此外,随着AIGC走进各大高校,成为研究课题,也让高校的师生对存储系统有了新的要求,在某高校的AIGC案例中,原先利用高性能计算机计算一次仅需几个小时,但是前期准备数据、调取数据的时间却长达几天,“系统需要重新全部调取数据,数据量大,移动效率低,”孙斌指出,“而师生研究项目也要向学校租用服务器,耗时几天调取数据,会造成资源浪费和科研成本上升等问题。”
面对这些挑战,对于存储行业而言,首先需要解决的就是——如何在更小的空间内,存储更多的数据。一方面,通过对存储系统的优化,可以让空间利用率更高,对此,孙斌表示,AI技术在存储优化方面也有一些应用场景,比如在缓存方面,通过AI技术,感知数据模式,从而重新调整缓存的调动,实现智能缓存;
另一方面,新的存储介质也成为了各个产业重点布局的焦点,目前比较常见的两种存储介质就是HDD和SSD。HDD有大容量、低成本和长期可靠性等优点,适合存储冷数据和归档数据;而SSD因其高性能、低延迟和抗震性等特点,正在逐渐成为主流。随着QLC、 SSD等新型SSD技术的不断发展,SSD的容量和成本将进一步优化,使其在数据中心中的应用更加广泛。对此,浪潮信息认为,在混合负载的场景中,闪存正在逐渐成为重要的支撑手段。
除了存储介质在发生转变以外,存储架构也在AIGC的影响下,发生了变革。基于此,浪潮信息存储于近期提出了可组合分布式融合存储(CDFS)的新模式,打造了三层三面两体的可组合架构, “三层”分别为:数据编织层、微服务化功能层和硬件资源层;
“三面”分别为:控制面,进一步增强控制面,向全场景化方向演进,并实现多介质、多协议存储融合控制。数据面,解决CPU对数据I/O五类算子处理效率不高问题,突破单节点百万级IOPS性能上限。智能面,通过智能节点,提供全局AI的能力,实现数据就绪。“两体”则是为存储平台本体和管理编排体。
两极化发展
在CDFS存储架构的基础上,浪潮信息存储还根据不同的场景,细分成了机柜级存储底座(BoR)和数据中心级存储底座(BOD)。存储两极化的趋势,也恰好对应了当下数据中心的两极化发展。
从目前趋势上看,一方面,一些企业侧应用的简单的通算和用于模型推理使用的算力服务器,呈现出边缘化、规模小等特点,而用户需求则是在更小的空间内,实现更高效、更低成本的近数据计算。这也就对应了BoR的存储架构,BoR底座下,领域专用硬件节点减少东西向交互带宽50%以上,节约网络资源、处理器资源,并通过定制化闪存模组,提供PB级存储,机柜空间和功耗都能相对降低40%左右。
谈及BoR面向的应用场景时,孙斌分享了一个比较典型的场景——数据空间应用场景。该场景下,数据要素落地进入终端应用的时候("数据要素X"),相对来说是偏向近计算边缘存储的一个场景。“比如有一个需要使用某一行业数据的单位(边缘,数据规模小)和一个数据交易所(中心,数据规模大),那么这个单位把数据从交易所拿过来放在本地来做自己的应用时,对存储等硬件层面的需求就是我们BoR所瞄定的场景。打个比方来理解,水电费、煤气费这些代收费用在银行里都有一台前置机(BoR)来统管,大多数自来水公司、煤气公司也都有一套前置机业务系统用来就近开展业务。”
在前文提到的清华大学的案例中,清华大学就使用了浪潮信息提供的基于分布式存储平台AS13000的存储解决方案,该方案提供了40个节点的存储服务,存储空间约为5PB,满足20.16GB/s数据通量、最长拍摄时间72小时、拍摄过程中不丢帧等严格要求。
此外,RUSH脑成像系统还部署浪潮信息智能统一存储管理平台infinistor,在数百万个文件的环境下,通过人工智能技术实现存储部署、运维、管理、调优的自动化,实现了对于故障盘90%以上的预测准确率。
另一方面,对于通用大模型训练、调优等场景下,需要万卡,甚至十万卡的超大型数据中心或数据中心集群协同计算。在这个场景下,用户需要实现跨云、跨系统,甚至跨地域的协同计算能力。众所周知,如果在协同训练的过程中,某台服务器宕机了,训练将会终止,并重启,这就对服务器单体的稳定性和协同集群的稳定性都提出了更高的考验。对于为服务器输送、保存数据的存储系统而言,也就提出了更多的要求。
这种趋势下,用户需要一个能实现跨云、跨域、跨系统的,统一智能数据管理平台,以及一套融合多种协议,多样算力,多类别存储介质的分布式存储融合架构和一项全局全域的数据编织存储能力。其中分布式融合架构是支撑架构,包含协议融合、算力融合、介质融合三种融合,通过融合实现了存储资源的协同处理,按需分配;在分布式融合架构之上,通过设备全生命周期管理、元数据统一视图以及数据统一编排等,实现了设备统一、元数据统一和数据统一三个维度统一的智能数据管理平台,简化了数据管理复杂度,提升了数据流动效率,“这也是浪潮信息存储推出BoD底座的核心理念。”孙斌如是说。
随着推理市场逐渐升温,未来用户使用BoR架构的场景会越来越多,“未来,企业会有越来越多近数据计算的需求,也就催生了近数据存储的需求,用户逐渐希望单机柜能实现的数据计算和处理的数据量级能有大幅提升,这也就推动了BoR在更多的场景落地。”孙斌强调。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)
热门跟贴