自从6月份首次公布以来,人们对Apache Polaris(北极星)项目的兴趣激增,因为组织希望通过元数据目录来帮助他们处理大数据并控制对Apache Iceberg表的访问。随着该项目将在2025年成为顶级项目,Apache软件基金会的成员讨论了项目的当前状态,以及它未来的发展方向。

打开网易新闻 查看精彩图片

Apache Polaris在Snowflake的“数据云峰会2024”上首次亮相,它是一个技术元数据目录,使用Apache Iceberg REST规范来帮助各种计算引擎通过代理访问Iceberg,这些计算引擎将应用于数据。今年夏天,Snowflake向Apache软件基金会捐赠了Polari,并在8月份成为一个孵化项目。

Dremio的首席软件工程师、ASF的长期成员Jean-Baptiste Onofré表示,北极星有可能在2025年中期成为顶级项目(TLP)。他是ASF的永久董事会成员,并在多个项目管理委员会(PMC)任职。“我指导了很多Apache项目,“Onofré说,“我认为我们最快能做到的大概是(从2024年8月开始)10个月左右。这可能是我们最快的速度了。更合理地说,我认为我们的目标是一年。”

他说,在ASF批准孵化项目成为TLP之前,项目必须扫清各种障碍,包括版权检查、许可检查和项目社区的增长。“我们在内部向PPMC (Podling PMC)发布了一个版本,然后我们去IPMC (Incubator PMC)再次检查一切是否正常。”“根据经验,第一次发布总是有点痛苦。所以我想说,这款项目的发布是下一个里程碑。”

然而,就可执行软件而言,Polaris现在已经很好了,Snowflake首席软件工程师Russell Spitzer说。他是Apache Iceberg的PMC成员,也是Apache Polaris的PPMC成员。

打开网易新闻 查看精彩图片

“我想说清楚: Polaris现在就可以使用了。从技术角度来看,已经准备好了。”“我不能做太多前瞻性的陈述,但我认为管理Polaris的产品很快就会上市。”

在Snowflake于6月初宣布推出Polaris后的第二天,Databricks收购了开发Iceberg的Tabular,这成为了事实上的标准表格格式。Spitzer说,Iceberg背后的动力似乎转化为Polaris背后的动力。“从我与其他公司员工的一对一谈话来看,他们都很兴奋。对这个项目比他们想象的要兴奋得多。他们只是觉得这减轻了他们过去不得不做的很多负担。”

Apache Iceberg是大约五年前出现的三种开放表格式之一,另外两种是Databricks Delta Lake和Apache Hudi,旨在解决Hadoop社区成员面临的关键数据管理挑战之一。许多客户使用Apache Hive Metastore (HMS)来跟踪对数据表所做的更改,但是它还有很多需要改进的地方。在表格式得到控制之前,开发人员只能靠自己来防止数据损坏问题。

Spitzer说:“冰山社区的几乎每个人都曾经使用基本的Hive metastore集成,这是一种老式的目录……所有这些人都在寻找下一个选择。”“有来自不同公司的人不断联系我们,问我怎么才能参与进来?因为我想放弃我们正在做的事情,我想转向这个。我想参与到我们共同参与的项目中,这样我就不用维护自己的版本了。”

由于项目的性质,Iceberg和北极星项目紧密相连,有许多PMC成员参与了这两个项目,包括Spitzer。这就引出了一个问题:为什么需要两个项目?但正如Spitzer和Onofré明确表示的那样,这两个项目之间有明确的责任划分。

最重要的区别是,为Polaris使用的REST API定义规范是Iceberg社区的责任,而将REST规范公开给外部世界是Polaris项目的工作。“我们不偏离Iceberg REST规范是非常重要的,”Onofré说。“这显然是一个要求,一个强烈的要求。”

根据Spitzer的说法,将开放规范与这些规范的服务器端实现混合在一起是一个糟糕的做法。他说,通过让Iceberg制定规范,让Polaris在服务器端实现规范,每个团队都可以在不妥协的情况下向前推进。他说:“我认为很多参与Iceberg项目的人都曾在以前的开源服务器端组件上受挫过。”“当你站在这一边时,以及在格式方面,你最终不得不在你想要关注的内容和你在规范中的实际需求与规范之外的需求之间做出妥协。”

这种分离也使Polaris可以自由地与其他数据库一起工作,并成为一种独立的超级元数据目录。未来,北极星团队可能会考虑帮助管理对存储在Apache Kafka或Apache Cassandra中的数据的访问。

考虑到目录的历史,每个计算引擎都需要自己的目录,但每个目录的工作方式略有不同,有不同的要求。有了Polaris,就有机会提供一个单一的目录,该目录可以跨越当今的分布式数据环境,包括查询引擎、数据存储和语言。

打开网易新闻 查看精彩图片

虽然Polaris的长期潜力是光明的,但短期的工作项目列表正在变得越来越长。这是有兴趣的用户群期待将北极星连接到他们的大数据环境的结果。“人们会说,我们需要开放的身份验证集成,我们需要这种后端存储,”Spitzer说。“我们希望尽快进行维护。都是大家在做的东西。太棒了。它比我想象的要受欢迎得多。”