本文按照数据湖存储加速方案的不同发展阶段铺开,比较了各类方案之间的异同,并深度剖析了这类方案的技术本质。
我们期望本文能够帮助读者对大数据和 AI 场景下的「数据湖存储加速」这个主题建立一个整体把握,为选出适合自己业务的方案提供参考。
24 年初,我们和客户 H 进行了交流。当 23 年大家都在训练自己的大模型,H 客户扩大了已有的 GPU 集群规模,加上既有自建 IT 基础设施,开启了大模型训练之路。在大模型加持下,新的业务效果很快得到了证明。随着时间推移,大模型业务的不断扩大,基础设施层面碰到了一些跟存储相关的问题:
- 数据规模:要进一步提升模型效果,就要把更多数据喂给 GPU,但自建的小型文件系统已不足以承载这么多训练数据。曾尝试过 HDFS,虽然容量规模增大不少,但元数据量仍然存在上限,因此不得不将海量小文件打包存储,训练前再解压展开,训练后还得清理,使原本顺畅的业务流变得复杂,
- 存储成本:随着多模态的引入,业务数据由几十 TB、数百 TB 快速积累到数 PB,存储成本越来越不容忽视。
- 训练速度:算力规模逐步扩大,无论自建文件系统还是 HDFS,都开始跟不上算力需求,存储成为拖慢训练的主要因素。
类似客户 H 遇到的这些问题的例子还有不少。他们中大多都经历了从自建 IT 基础设施到开源大数据生态的时期,并尝试将以前的经验复制到 AI 场景。
的确,过去由数据库、数仓、ETL 等技术驱动的商业智能成为业务的强大助推器,但这种围绕预定义 schema 层层裁剪模式所设计的存算架构在 AI 面前显露出不少弊端,尤其是受系统扩展性和成本的制约,大量原始数据不得不被舍弃。
但是,数据正是大模型时代的黄金和石油,当业务希望从这些宝贵的原始数据中重新构建智能、提炼新的价值时,往往发现为时已晚。
数据湖存储成为云原生时代的事实标准
对于这位 H 客户,我们给的建议是拥抱云原生数据湖。其中最核心的主张就是将各类原始数据统一入湖,集中存储到同一数据底座,再以开放统一的接口提供给各类上层计算和应用。这种方式最大限度保留了数据的 Single Source of Truth,同时也解决了这位客户的困扰:
- 近乎无限的扩展能力:越来越多的数据湖存储已由传统的 HCFS 架构走向了对象存储架构,其平坦元数据结构天然适合水平扩展,单个存储桶轻松承载千亿对象,尤其在 AI 这类海量小文件场景具有得天独厚的优势。
- 灵活的资源弹性:相对于 HCFS 的存算一体架构,云服务商提供的对象存储通常基于存算分离的庞大资源池,客户按量付费、按需扩缩容,同时还能借助资源池的规模效应满足一定的突发性能需求。
- 极致的存储成本:对象存储一般采用纠删码技术,相对多副本可带来数倍的空间节省,同时从标准、低频、冷存到归档的分级存储能力,也给原始数据的长期保存提供了进一步优化成本的方案。
当然,这些优势不仅局限于 AI 场景,在大数据场景下同样能发挥很大的价值。除了比 HCFS 拥有更好的扩展性、资源弹性和成本优势外,类似 Hudi、Iceberg 等新一代存储格式和计算范式也在围绕对象存储的这些特性进行设计优化。可以看到,基于对象存储的数据湖已成为云原生时代的事实标准。
原文:https://www.sohu.com/a/830065069_355140
热门跟贴