打开网易新闻 查看精彩图片

初创公司Etleap推出了面向Apache Iceberg表的云端抽取-转换-加载(ETL)数据管道服务。

Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计,位于Parquet、ORC、Avro等存储系统以及AWS S3、Azure Blob、Google Cloud Store等云对象存储之上。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进。Iceberg格式表用于大数据处理并支持SQL查询。Spark、Trino、Flink、Presto、Hive、Impala、StarRocks等查询引擎都可以同时操作这些表。

Etleap首席执行官兼创始人Christian Romming表示:"Iceberg为企业带来重大优势,但要在实践中实现这些优势需要一个托管的管道系统。我们相信我们的Iceberg管道平台能够满足这一需求,让数据平台团队能够采用Iceberg而无需构建和运营自定义管道堆栈。"

Etleap成立于2013年,由Romming创建。按照数据分析初创公司的标准,该公司融资较少,在2017年和2018年的初创和种子轮中仅筹集了约322万美元。

Romming表示,Iceberg本身不负责数据摄取或建模、管理表操作或协调跨系统的变更。用户必须构建自己的管道功能集来将数据源连接到Iceberg并完成这些工作,需要"组装摄取工具、dbt Core作业、编排器和自定义Iceberg维护的拼接组合"。

现在Etleap通过SaaS服务为用户提供这些功能。它将摄取、转换、编排和Iceberg操作统一到一个托管系统中,该系统完全在客户的虚拟私有云(VPC)内运行。

然而,支持的数据源有限。目前只支持以下Iceberg管道数据源:

启用CDC的数据库(CDC=变更数据捕获)

启用"通过事件触发转换"管道源选项的S3源

事件流

Salesforce CDC实体

可用的数据转换功能也有限。同时CDC、事件触发和事件流Iceberg管道也存在一些限制,不过这些问题应该会在未来得到解决。

Etleap目前为AWS Redshift、S3/Glue和Snowflake提供管道服务。其Iceberg管道平台已经上线,客户正在使用它来大规模运行Iceberg管道。

Q&A

Q1:Apache Iceberg是什么?有什么优势?

A:Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进,多种查询引擎可以同时操作这些表。

Q2:Etleap的Iceberg管道平台解决了什么问题?

A:Iceberg本身不负责数据摄取或建模、管理表操作。用户以往需要自己构建管道功能,组装各种工具。Etleap将摄取、转换、编排和Iceberg操作统一到一个托管系统中,简化了部署和运维。

Q3:Etleap的Iceberg服务目前支持哪些数据源?

A:目前支持的数据源包括:启用CDC的数据库、启用特定选项的S3源、事件流,以及Salesforce CDC实体。数据源和转换功能相对有限,但会在未来扩展。