关注飞总聊IT,了解IT行业的方方面面。

最近大数据,或者说Lakehouse两强Databricks和Snowflake又要开辟新战场了。

这个事情要从Iceberg说起。

Iceberg的创始人们搞了一个公司叫Tabular。然后,他们给Iceberg搞了一个REST Catalog的Open Standard。

简单来说,REST Catalog,和我们目前用的最多的HIVE Metastore强多了,有各种好处。

这个技术问题我们就不讨论了。

Snowflake all in Iceberg以后就搞了一个自己的catalog,叫做Polaris Catalog,6月3日的时候,宣布开源了。

Polaris Catalog当然是兼容所有的Iceberg Open Standard的。

毕竟Snowflake要的就是all in Iceberg。再怎么傻,Snowflake也不可能去all in 竞争对手的Delta Lake吧。

后面发生的事情就很狗血了。

Databricks最近刚开了Data + AI Summit 2024。Databricks有几件大事。

首先是,他们宣布收购Tabular。没错,做Delta Lake的买了做Iceberg。

其次,在summit期间,Databricks也宣布开源它们的Unity Catalog。

没错,Databricks也有自己的catalog 也开源了。

当然Databricks对待Iceberg的态度,肯定不是让其茁壮成长,消灭Delta。

实际上,Delta搞了一个叫做Delta Universal Format,简称UniForm。

这东西主要的作用是给Delta的数据生成Iceberg的Metadata文件,这样Iceberg客户端就可以访问Delta Lake的数据了。

一份数据,若干份Metadata,这就是今天Delta Lake对于这几个不同format 的解决之道。

所以Unity Catalog对Iceberg的支持,走的也是这一条路,而不是Snowflake那样实现了Iceberg的这些创始人们提的Open Standard。

因此,我们客观的说,Snowflake的Polaris Catalog,是一个更纯血的Iceberg Catalog。而Databricks的Unity Catalog,除去其功能上的多样性以外,纯粹就对Iceberg的支持来说,显然,更杂交一些。

但是没关系啊,打不过还是打得过都不重要了,我已经把你给买了。Iceberg的创始人都融入到Delta Lake的公司里面去了。

所以Iceberg这个项目的未来到底会怎么样呢?是在之前Iceberg的人圈定的道路上继续发展REST Catalog,还是会被Delta Lake给融合了,最后成为Delta Universal Format的附属品呢?

如果你是Databricks的founder们,你希望Iceberg走向哪条路?

如果你是Snowflake,你又希望Iceberg走向那条路?

讲真的,Snowflake没有花大价钱,把Tabular给买了,反而让Databricks给买了,这个事情,对Snowflake来说,本身,就是棋差一着。

棋差一着,有的时候就是非常关键的一招了,有的时候这一招可能就是致命的。

也许Iceberg并没有办法作为一个独立的产品,继续沿着之前的道路发展了。相反的Databricks的影响力会进来,Delta Universal Format的这条路会被提起来。

以后不但Delta Lake可以产生Iceberg的Metadata,反之亦然。Iceberg也可以产生Delta Lake的Metadata。

所以,这个时候开源Polaris Catalog的Snowflake,毫无疑问就是吃了苍蝇一样,难受死了。

不仅仅现在难受死了,以后的日子,看起来也不会很好过。Databricks买买买还是很厉害的。

我最近写的专栏,讲职场的经验,尤其是一些其他地方不容易看到的真话,有兴趣可以订阅,24小时内可以退款。