通信世界网消息(CWW)在企业数字化转型的浪潮中,数据已成为企业发展的核心资产。而数据处理的效率与成本始终是企业数字化转型路上高悬于头顶的达摩克利斯之剑。
传统存算一体的架构常常在面对海量数据的汹涌来袭时,陷入两难的困境:要么牺牲性能,要么背负高昂的成本。而“存算分离”的出现,打破了传统IT架构的固有思维,它真的能为企业劈开这条荆棘之路吗?
腾讯云存储产品总经理陈峥认为存算分离是比较优的方案,存算分离能按需提升资源利用率。此外,存算分离不仅可提升性能,还能降低成本,对用户而言更具性价比。在此背景下,腾讯云存储的GooseFS应运而生,旨在实现在存算分离架构下对对象存储的加速访问。
腾讯云存储产品总经理陈峥
对象存储面临性能挑战
对象存储由于具备高水平扩展性和低成本等特征,目前已经成了用户首选的海量数据存储解决方案。但随着大数据分析、AIGC等涉及海量数据计算的场景快速发展,对象存储由于其数据组织和实现方式限制,以及其存储介质时延和吞吐性能的制约,在应对这类工作负载时,面临着严重的性能挑战。
首先,原生对象存储的I/O写入和读取时延较高,就像一条狭窄的道路,数据在其中传输缓慢,严重影响了系统的响应速度。
其次,数据写入和读取吞吐相对较低,如同涓涓细流,难以满足大规模数据处理的需求。
再者,原生对象存储的元数据操作缓慢,元数据作为数据的“导航仪”,其操作效率低下会导致数据管理的混乱与低效。这些性能问题在学术界和工业界都备受关注,成为亟待解决的焦点。
为了攻克原生对象存储的性能难题,腾讯云研发团队精心打造了一套基于对象存储搭建分布式高性能文件系统GooseFS,引入三个关键设计,来实现在存算分离架构下对对象存储的加速访问,从而解决上述问题。
陈峥表示,GooseFS是腾讯云对象存储产品族中的一款重要产品,其主要使命是解决在AIGC等大量文件读写场景下对对象存储数据访问加速的关键问题。
以三大技术创新加速数据访问
据了解,GooseFS由计算端缓存、存储端缓存技术和元数据操作加速技术三大支柱支撑,是一款分布式缓存类产品,致力于提升大模型训练场景下的存储性能,满足AI对存储性能的迫切需求。
在计算端缓存加速方面,GooseFS采用了多级缓存调度能力,这一技术犹如一位智慧的调度员,能够让每个缓存块同时服务于多个线程进行数据拉取,并且在所有读写路径上实现最短路径访问。形象地说,就如同为数据开辟了一条高速公路,让计算节点能够在本地快速读取数据,大大缩短了存储访问路径。同时,通过软件方式充分利用计算节点上的高性能磁盘,构建成分布式缓存池,为跨节点访问提供了强大的吞吐能力,如同将多个小水库连接成一个大型水利枢纽,汇聚力量,满足大规模数据处理的需求。
存储端缓存则是对计算端缓存的有力补充。由于计算节点资源与存储节点资源在生命周期上并非完全同步,计算节点缓存虽效果显著,但容量有限。一旦未命中缓存,计算节点就需从低性能存储介质获取数据,这无疑会影响访问性能。而存储端缓存的存在,就像一个后备粮仓,当计算端缓存不足时,能够及时提供数据支持,确保数据访问的高效性与稳定性。
元数据加速是GooseFS的又一核心创新点。其内核将原来对象存储的元数据架构从扁平化转变为树型架构,类似于将杂乱无章的文件目录整理成一棵结构清晰的B+树。在这种架构下,每个文件都拥有唯一的文件路径,并通过前缀合并将相同文件整合在子树之下。这样一来,对文件的操作就转化为先寻找树上父节点,再寻找叶子节点的过程,如同在清晰的地图上导航,将许多重复路径查找操作优化为一次查询,大幅提升了元数据操作的效率,使数据管理更加井然有序。
就在近期,以GooseFS技术原理撰写的论文成功投稿到行业顶会NAS2024,并已顺利获得会议确认收录,后续还将在相关期刊上发表,这无疑是对GooseFS技术创新的高度认可,也彰显了腾讯云在存储领域的深厚技术底蕴和卓越创新能力。
多行业应用的得力助手
从业务价值角度来看,GooseFS对数据湖存储有着深远的影响。据了解,相比原生对象存储,GooseFS的吞吐量提升了8~10倍,同时降低了90%的存储带宽消耗,满足了多种工作负载对高性能要求。
实验结果清晰地展示了GooseFS的卓越性能。在不同存储粒度下,针对随机I/O、小I/O和顺序I/O进行分析,GooseFS均表现出色。其中,在小文件性能方面,提升了7.87倍,让其在处理小文件时如虎添翼。陈峥谈到,原生对象存储在处理海量小文件时往往力不从心,而GooseFS经过优化后能够轻松应对,极大地提高了小文件处理效率。
谈及如何实现显著的性能优势?腾讯云存储资深专家程力强调,GooseFS采用了腾讯自研的网络框架以及KonaJDK,这些自研技术就像一把把精良的工具,为GooseFS的高效运行提供了坚实保障。同时,利用Two Queue缓存淘汰算法,实现了缓存的精细化管理,使缓存能够精准识别热数据,如同一位精明的管家,将最常用的数据妥善保管。
腾讯云存储资深专家程力
此外,腾讯云还研发了与大数据表分区相关的感知技术,通过Catlog功能对接大数据关键组件,能够智能地将最热数据留在缓存中,进一步提高了缓存命中率,让每一份缓存空间都能发挥最大效能。
在众多行业中,GooseFS都发挥着重要作用。目前,GooseFS已经服务了蔚来、博世、百川、高途、燃数、酷狗等一大批客户。
在大模型训练领域,它为模型训练提供了高速的数据读取支持,加速了模型的训练进程,让企业能够更快地推出创新的AI应用;在自动驾驶领域,能够快速处理海量的路况数据和车辆传感器数据,为自动驾驶系统的决策提供及时准确的数据依据,保障行车安全;在大数据分析领域,助力企业快速挖掘数据价值,从海量数据中提取有价值的信息,为企业的战略决策提供有力支撑。
腾讯云GooseFS以其创新的技术架构、卓越的性能表现、显著的业务价值,在对象存储领域树立了新的标杆。它不仅为腾讯云在存储市场赢得了竞争优势,更为整个行业的发展提供了宝贵的借鉴经验和创新思路。随着技术的不断演进和应用场景的持续拓展,相信GooseFS将在未来的数据存储领域发挥更加重要的作用,引领行业迈向更加高效、智能、安全的数据存储新时代。
热门跟贴