我们为什么要做 Lakebase？|元数据|客户端节点|方向|调用

编者按

6 月 29 日，OceanBase Hours 线上发布会举行，OceanBase 面向湖库一体的 AI 数据库正式发布，OceanBase AI 产品家族亮相。

在这套体系中，OceanBase Lakebase 是 OceanBase AI 数据库的核心引擎。其承载湖库一体与多模态数据能力，让结构化数据、非结构化数据和向量数据能够在统一架构中被管理、加工、检索和调用。

为何要构建 OceanBase Lakebase？其底层技术逻辑是怎样的？又适用于哪些实际业务场景？本文将深入探讨这些问题。

作者 | OceanBase 产品总经理韩富晟

全文共 2492 字，阅读约需 4 分钟

OceanBase 产品总经理韩富晟

企业数据系统的游戏规则，正在被 AI 能力重新定义。

过去几十年，数据库的核心职责是管理结构化数据。交易、订单、账户、财务，这些数据以表的形式被组织和查询，支撑了企业最关键的业务系统。

但随着 AI 技术的发展，文本、图片、音频、视频等多模态数据不断进入业务系统，并从“附件”转变为可被理解、分析和利用的核心资产，开始支撑新的业务场景。

企业并不缺数据。数据湖存储原始数据，数据库支撑交易，数仓服务分析，但在 AI 场景下，这套分散的架构很难支撑对多模态数据的统一处理和理解。AI 应用要更好地理解业务，需要的是一个能把结构化数据与多模态数据连接起来、并通过 AI 能力进行处理和挖掘的新底座。

这也是我们发布 OceanBase Lakebase 的原因。

我们把 OceanBase Lakebase 定义为面向 AI 业务场景的湖库一体数据底座。

它不是新的数据湖，也不是把数据库能力做一次横向扩展，而是希望在 AI 时代，重新思考企业数据应该如何被存储、管理、计算和搜索。

OceanBase Lakebase 的核心逻辑很直接：让多模态数据获得和结构化数据一样重要的管理能力。

过去，非结构化数据虽然可以被存下来，但要真正用起来并不容易。文档、图片、视频、音频散落在不同系统里，缺少统一元数据、统一索引、统一计算和统一搜索能力。很多企业明明有大量高价值数据，但业务人员和 AI 应用很难高效使用。

OceanBase Lakebase 要解决的，就是这个问题。

首先，文本、图片、音视频等数据可以被统一接入和处理。对于 AI 应用来说，这意味着更多原本沉睡的数据可以被重新激活。

为了实现这一点，我们选择了湖库一体的架构。湖的开放性很重要，因为 AI 场景需要处理海量、多类型、开放格式的数据；库的管理能力同样重要，因为企业级应用需要稳定性、治理能力、权限控制和可靠的数据服务。我们希望把这两类能力真正结合起来，而不是停留在接口层面的拼接。

在这个架构之上，是更加开放和多样的使用方式。AI 场景里的计算方式非常多样，不可能只依赖单一计算模型，所以 OceanBase Lakebase 支持 SQL、Spark、Daft 等多种计算方式，让数据开发、算法工程和业务分析都能以适合自己的方式使用数据。

搜索方式也同样需要融合。用户既需要关键词搜索，也需要向量搜索，还需要结合结构化字段进行精准筛选。我们希望把这些能力统一起来，让用户可以同时按语义、按关键词、按业务条件去找到真正需要的数据。

此外，未来使用数据的不只是人，也会有越来越多智能体。到了 Agent 时代，数据不只是被人查询，也会被智能体持续调用。Agent 需要的不只是知识库，而是实时上下文、长期记忆、业务状态、行动记录，以及可隔离、可回滚的数据环境。

OceanBase Lakebase 要做的，是让这些数据能力成为 AI 应用可以稳定调用的基础设施，提供标准化接口和工具能力，让 AI Agent 能够更容易理解和调用企业数据。

作为企业级的数据基座，我们非常清楚很多客户内部已经有运行了很长时间的数据系统，这些系统承载着企业大量的历史数据资产。所以OceanBase Lakebase 在设计上并不要求客户推倒重来，也不要求把所有数据都迁移进来之后才能使用。

我们为 OceanBase Lakebase 设计了两种部署模式：

独立部署模式，适合全新的业务场景。如果用户面对一个新的 AI 应用场景，可以搭建一套全新的端到端基础设施，OceanBase Lakebase 能以较小的初始资源快速拉起一套系统，面向新场景提供包括存储和计算在内的所有能力。
智能叠加层模式，适合需要复用已有存储和数据资产的场景。比如客户已经在数据湖里沉淀了大量数据，OceanBase Lakebase 可以和已有系统并行运行，通过数据连接把客户已有系统中的数据和自身管理的新数据有机结合起来，向上层应用提供一致性的访问界面。

简单来说，新业务可以快速建设，老系统可以平滑增强。用户根据实际场景灵活选择。