云原生计算基金会(CNCF)宣布,开源存储平台 CubeFS 已从其孵化计划中毕业。
这一里程碑是在几年的发展之后。开源项目在达到适合生产使用的可靠性水平后退出CNCF 的孵化计划。据该组织称,CubeFS 已被 200 多个组织用于存储350 PB的数据。
CubeFS最初由中国最大的电子商务公司之一京东于2017年创建。两年后,这家在线零售商将其捐赠给了CNCF。据开源组织称,该平台的采用率增长了 1,900%,而为其代码库做出贡献的开发人员数量增加了 10 倍以上。
CubeFS 是一个分布式存储平台,旨在帮助组织管理其业务数据。据该项目的维护者称,CubeFS 集群可以容纳高达 EB 级的信息。该软件可以存储多种类型的工作负载的数据,包括人工智能模型和分析工具。
它的旗舰功能之一是其可靠性,支持两种防止数据丢失的方法——副本和纠删码。
副本功能使公司能够创建其记录的多个副本,并将每个副本存储在不同的数据中心。如果其中一个数据中心离线,仍然可以从其他设施之一检索信息。
纠删码基于相同的基本原则。它将数据集拆分为多个片段,创建这些片段的多个副本,然后将它们分布在多个数据中心。与副本相比,它提供更好的中断保护,并且使用更少的存储空间,但这些好处是以较慢的文件访问速度为代价的。
工作负载可以通过多种方式从 CubeFS 中检索信息,可以使用应用程序编程接口或 POSIX,POSIX 是多平台程序广泛使用的一种数据检索技术。还有一些接口允许最初为 Amazon S3 和 HDFS 构建的工作负载访问数据,而无需进行重大代码更改。
为了提高应用程序访问其数据的速度,CubeFS 包括多项性能优化。
该平台将元数据或有关文件的技术信息存储在 RAM 中,而不是存储在持久性存储中。这种安排可以更快地访问元数据。为了进一步加快检索时间,该信息保存在性能优化的数据结构中,称为 B-Trees。
CubeFS 还包括一个多级缓存系统。为了加快文件访问速度,每个 CubeFS 实例都可以将常用记录保存在为其提供支持的服务器上托管的本地缓存中。公司可以选择在同一集群中的不同服务器上部署第二个更大的缓存。
CubeFS 针对在云环境中使用进行了优化。它可以在插件的帮助下在 Kubernetes 上运行,并支持多租户,这是一种由多个组织或业务部门使用存储集群的安排。后一项功能对于将同一基础设施出租给多个客户的云提供商尤为重要。
“像 OPPO 这样的大型组织已经转向 CubeFS,以便在生产中运行机器学习平台并使用 AI 训练,”CNCF 首席技术官 Chris Aniszczyk 说。
展望未来,CubeFS 的维护者计划为该平台推出几项增强功能。有些将专注于降低与元数据存储相关的成本。其他的则旨在加快平台的缓存功能。
热门跟贴