数据湖曾是大厂标配,但用起来总像"把文件扔进地下室"——存是存了,找起来费劲。核心矛盾在于:湖只管存,不管算,每次分析都得把数据搬来搬去。
Lakehouse的解法很直接:在数据湖上直接跑数据仓库的查询引擎,不搬数据也能算。Delta Lake、Iceberg、Hudi这三个开源项目,把"事务支持""版本回滚"这些仓库能力塞进了湖存储。
打开网易新闻 查看精彩图片
代价也有。查询性能比专用数仓慢一截,实时流处理仍是短板。但对想省掉"湖+仓"双份成本的公司来说,这是笔合算的买卖。
打开网易新闻 查看精彩图片
热门跟贴