银行存储架构正在迎来一场新革命,从而让AI跑得更快、更稳
· 来源:轻金融 作者:李静瑕
当全球AI算力需求以数个月翻番的速度狂飙时,金融机构猛然发现:
沿用多年的存算一体架构,正在成为制约AI大模型落地的一大“命门”。同样重要的一个变化,是在AI“数字王国”,谁控制数据谁就执掌沉浮,在AI时代这样的数据黄金时代,存储创新的重要性更加凸显。
一场存储革新正在到来。 越来越多银行加入到了拥抱存算分离的行列中 ,使计算引擎与存储引擎在物理上分离解耦,破解资源利用率较低、资源调整不灵活等难题,大幅提升大数据资源的使用效能,为AI竞争搭建更强大、高质量的基础设施。
01
AI爆发,银行IT架构新挑战
在大模型的三大核心要素——算力、数据、算法中,“数据”是最为关键的环节。 如金融行业这样数据量大、数据质量高的行业成为了AI行业化落地的首选。
随着大模型从NLP走向多模态,原始训练数据集和数据训料从纯文本变成了文本、视图、图片和语音的混合,大模型训练所依赖的数据量呈指数级增长,膨胀程度达到万倍规模。银行同样面临数据存储与计算的爆发性增长,要支撑AI的快速发展,势必给银行IT架构带来新的挑战。
一是面临数据质量难题。 行业数据积累不够,且分散在各单位的“数据孤岛”中,难以有效共享,导致行业大模型推理精度不足。
二是行业数据的前序处理耗时长。 从通用大模型到行业场景大模型,针对性训练所需的数据预处理耗时长,收集、清洗等环节往往占据模型开发训练时长的60%。
三是缺乏复合型金融大模型人才。 大模型落地需要精调和优化,缺乏行业适配框架、工具与专业化AI人才,导致模型开发周期长、效果差,阻碍了大模型推理在行业的快速落地。
四是算力成本高昂 ,多数行业无法承担大量采购计算卡的成本,同时,由于算力等待、任务潮汐、资源碎片化等原因,AI集群的可用度通常不足50%。因此必须从一开始就考虑训练和推理任务的降本增效。
如何破局? 金融机构需要找到更合适的路径。
金融企业要实现AI的行业落地,首先面对的是海量数据需要大量算力和存力进行处理,算力重要,存力也很重要。那么金融企业如何采用先进的IT架构,把算力和存力的效果发挥到极致?
“金融机构应建设高效可靠的计算和存储基础设施,制定计算性能提升、数据存储容量扩展等方面的发展方案,确保大模型的高效运行和数据安全存储。”《金融大模型落地路线图研究报告2024》指出。
事实上,已经有不少金融机构率先进行了积极的落地方案探索,为行业带来了更多样本与启示。
02
加速拥抱存算分离成为一致选择
“业务连续性降级、能耗提升、运维管理困难。”
作为全国农信系统中最早一批启动转型建设的机构,服务规模的扩大给浙江农商联合银行核心系统提出新的挑战,数据库是核心系统中最关键的应用,也是核心系统改造的重中之重。浙江农商联合银行率先在基于本地盘存储的服务器集群上进行方案试点,很快面临了上述三大问题。
通过与华为等头部技术厂商联合分析定位,该行最终明确基于服务器本地盘的存算一体架构是问题的根因所在。通过反复论证,浙江农商联合银行决定基于华为OceanStor Dorado全闪存存储和TDSQL数据库,打造基于创新存算分离架构的分布式数据库系统,实现不引入上述问题的同时完成核心系统转型升级。
存算分离架构,很快彰显出技术优势。企业级存储大幅提升数据库可靠性,如企业级存储架构可靠性比服务器高出两个数量级。同时大幅提升资源利用率,一方面分布式数据库无需多副本,另一方面企业级存储每U空间容纳盘数比服务器多50%~200%。在运维方面,其管理效率提升,企业级存储可为NVMe SSD提供RAID保护,3盘故障甚至整个硬盘框故障业务无影响。
在实验室对比测试中,存算分离架构方案经历节点故障、存储控制器故障、接口卡故障、三盘同时故障等多个极端故障条件测试,业务无中断;性能相比原架构方案提升5倍。在“丰收互联”业务测试中,平均性能提升50%。此外,该方案资源利用率提升超30%,成本降低超40%。
对金融机构而言,存算分离不是一道选择题,而是成为了一道必选题。
当前国内的数据库,尤其是分布式数据库,之所以在金融行业核心场景应用进展缓慢,根本问题在于它们大都采用存算一体架构,使其在数据层面可用性、性能和可管理性都缺乏保障,难以满足金融行业要求。
存算分离架构,能够解决核心数据核心资产安全的问题,还能够优化银行在IT上的投资效率,解决多云环境里数据的流动和利用效率问题。当前已经有大量银行把存算分离作为破局当前AI大模型落地银行的架构最优解。
例如,工行大数据平台通过向存算分离架构演进,既解决了存算一体架构中单集群故障域过大的问题,又形成了计算引擎可插拔式引入的能力;农行则深入探索并实施了“分布式数据库+全闪存”的存算分离架构解决方案,充分发挥全闪存储并行数据访问优势;此外,北京银行、上海银行、微众银行等也采用华为数据存储,进行存算分离改造或者灾备系统升级。
03
抓住数据黄金时代:存储创新是关键
如果数据被比喻为是AI时代的“石油”,而存储就是决定“炼油”效率的核心技术。 AI时代被认为是数据的黄金时代,银行要加速推进AI大模型的落地,存储创新是必经之路。
AI大模型的快速发展,对存储提出了新的要求,如对海量数据进行归集与管理,提升数据预处理效率,提升对海量小文件的读取速度,保证数据不被干扰和篡改等。
对此,华为数据存储产品线副总裁樊杰认为,理想的AI数据基础设施,应该瞄准AI大模型训练的数据归集、数据预处理、模型训练这几个关键环节,提供高质量的数据服务。
存算分离架构趋势之下,银行要如何推进存储创新?
一个必然的答案,首先是要构建高质量的AI数据湖。高质量的AI数据湖,能够满足银行在AI场景下对数据存储、治理、模型化的要求,这其中需要AI数据湖提供三大核心能力。一是要解决数据池化,加速AI场景下海量数据的流动与共享,利用平台工具做好数据管理,二是要使能数据和模型工程,三是要提供极简的应用对接开发平台。
通过数据工程工具,可以提升收集、清洗等数据预处理环节的效率,构建高质量的AI数据湖。同时,标准化工具链可以帮助行业人员轻松上手,简化AI开发作业,降低大模型推理在行业定制化开发的难度和成本。
在赋能行业落地AI方面,华为已经迈出了新的步伐。华为AI数据湖解决方案实现企业内部多源异构数据的统一存储,通过Omni-Dataverse全局文件系统打破传统数据中心的限制,实现数据的全局可视和高效流动,同时通过AI工具链ModelEngine,能够实现数据使能、模型使能与应用使能,可将数据预处理效率较人工提升10倍,支持与DeepSeek等业界主流模型对接标准化,一键蒸馏。同时,帮助AI应用实现低代码开发,使AI应用上线周期缩短80%+。
存储架构的革新,已经超越了单纯的技术升级,而是成为银行在AI时代重构核心竞争力、提升效率与价值的战略制高点。那些率先完成重构的银行,有望在大模型时代构筑新的经营壁垒。
【轻金融好文】
1、
2、
3、
4、
5
6、
7、
8、
10、
热门跟贴