三年前,WarpStream干了一件事:把Kafka的本地磁盘扔了,数据直接写进S3。听起来简单,但成本砍到原来的十分之一。代价也很明显——延迟从100毫秒飙到1-2秒。

当时很多人觉得这是妥协。但市场用脚投票:不是所有人都在乎那几百毫秒,省下的运维麻烦和真金白银更实在。于是跟风的来了。Aiven把这种架构送进了Apache Kafka开源主线,预计1-2年内落地。

打开网易新闻 查看精彩图片

2024年夏天,Databricks花大价钱收了Tabular——Apache Iceberg的创造者团队,只有30人左右。数据湖格式(Iceberg、Delta Lake)和流数据的融合,成了新战场。

现在Ursa进场。它通过"最小侵入式分叉"塞进Kafka,几个月后开源。核心卖点就两个:无盘主题(diskless topics)+ 原生集成Iceberg/Delta Lake。

成本账很现实。传统Kafka集群一年烧210万到351万美元,其中三分之二的生产流量跨可用区,复制流量必然跨区,消费端再占三分之二——除非开KIP-352。WarpStream模式把基础设施成本打下来,但厂商要赚钱,"10倍省钱"是营销话术,得细看。

延迟的trade-off摆在那儿:批量写入省S3请求费,S3本身百毫秒级延迟,调优也压不进1秒以下,否则成本优势归零。Ursa没承诺打破这个物理限制,它赌的是"够用的延迟+原生数据湖"这套组合拳。

当流数据不用二次ETL就能直接进湖,分析层和实时层的墙被拆了。这对已经押注Iceberg/Delta Lake的公司,是少一次数据搬运的诱惑。Kafka的下一个十年,可能真的不需要磁盘了。