编者按
6 月 29 日,OceanBase Hours 线上发布会举行,OceanBase 面向湖库一体的 AI 数据库正式发布,OceanBase AI 产品家族亮相。
在这套体系中,OceanBase Lakebase 是 OceanBase AI 数据库的核心引擎。其承载湖库一体与多模态数据能力,让结构化数据、非结构化数据和向量数据能够在统一架构中被管理、加工、检索和调用。
为何要构建 OceanBase Lakebase?其底层技术逻辑是怎样的?又适用于哪些实际业务场景?本文将深入探讨这些问题。
作者 | OceanBase 产品总经理韩富晟
全文共 2492 字,阅读约需 4 分钟
OceanBase 产品总经理韩富晟
企业数据系统的游戏规则,正在被 AI 能力重新定义。
过去几十年,数据库的核心职责是管理结构化数据。交易、订单、账户、财务,这些数据以表的形式被组织和查询,支撑了企业最关键的业务系统。
但随着 AI 技术的发展,文本、图片、音频、视频等多模态数据不断进入业务系统,并从“附件”转变为可被理解、分析和利用的核心资产,开始支撑新的业务场景。
企业并不缺数据。数据湖存储原始数据,数据库支撑交易,数仓服务分析,但在 AI 场景下,这套分散的架构很难支撑对多模态数据的统一处理和理解。AI 应用要更好地理解业务,需要的是一个能把结构化数据与多模态数据连接起来、并通过 AI 能力进行处理和挖掘的新底座。
这也是我们发布 OceanBase Lakebase 的原因。
我们把 OceanBase Lakebase 定义为面向 AI 业务场景的湖库一体数据底座。
它不是新的数据湖,也不是把数据库能力做一次横向扩展,而是希望在 AI 时代,重新思考企业数据应该如何被存储、管理、计算和搜索。
OceanBase Lakebase 的核心逻辑很直接:让多模态数据获得和结构化数据一样重要的管理能力。
过去,非结构化数据虽然可以被存下来,但要真正用起来并不容易。文档、图片、视频、音频散落在不同系统里,缺少统一元数据、统一索引、统一计算和统一搜索能力。很多企业明明有大量高价值数据,但业务人员和 AI 应用很难高效使用。
OceanBase Lakebase 要解决的,就是这个问题。
首先,文本、图片、音视频等数据可以被统一接入和处理。对于 AI 应用来说,这意味着更多原本沉睡的数据可以被重新激活。
为了实现这一点,我们选择了湖库一体的架构。湖的开放性很重要,因为 AI 场景需要处理海量、多类型、开放格式的数据;库的管理能力同样重要,因为企业级应用需要稳定性、治理能力、权限控制和可靠的数据服务。我们希望把这两类能力真正结合起来,而不是停留在接口层面的拼接。
在这个架构之上,是更加开放和多样的使用方式。AI 场景里的计算方式非常多样,不可能只依赖单一计算模型,所以 OceanBase Lakebase 支持 SQL、Spark、Daft 等多种计算方式,让数据开发、算法工程和业务分析都能以适合自己的方式使用数据。
搜索方式也同样需要融合。用户既需要关键词搜索,也需要向量搜索,还需要结合结构化字段进行精准筛选。我们希望把这些能力统一起来,让用户可以同时按语义、按关键词、按业务条件去找到真正需要的数据。
此外,未来使用数据的不只是人,也会有越来越多智能体。到了 Agent 时代,数据不只是被人查询,也会被智能体持续调用。Agent 需要的不只是知识库,而是实时上下文、长期记忆、业务状态、行动记录,以及可隔离、可回滚的数据环境。
OceanBase Lakebase 要做的,是让这些数据能力成为 AI 应用可以稳定调用的基础设施,提供标准化接口和工具能力,让 AI Agent 能够更容易理解和调用企业数据。
作为企业级的数据基座,我们非常清楚很多客户内部已经有运行了很长时间的数据系统,这些系统承载着企业大量的历史数据资产。所以OceanBase Lakebase 在设计上并不要求客户推倒重来,也不要求把所有数据都迁移进来之后才能使用。
我们为 OceanBase Lakebase 设计了两种部署模式:
独立部署模式, 适合全新的业务场景。如果用户面对一个新的 AI 应用场景,可以搭建一套全新的端到端基础设施,OceanBase Lakebase 能以较小的初始资源快速拉起一套系统,面向新场景提供包括存储和计算在内的所有能力。
智能叠加层模式,适合需要复用已有存储和数据资产的场景。比如客户已经在数据湖里沉淀了大量数据,OceanBase Lakebase 可以和已有系统并行运行,通过数据连接把客户已有系统中的数据和自身管理的新数据有机结合起来,向上层应用提供一致性的访问界面。
简单来说,新业务可以快速建设,老系统可以平滑增强。用户根据实际场景灵活选择。
智驾企业每天都会从工程车、测试车采集大量视频、图像、传感器、GPS 等数据。真正的问题不是数据存不下来,而是如何从这些海量数据中快速找到有价值的片段。
比如极端工况、碰撞风险、异常道路、恶劣天气,这些对模型训练非常关键,但如果依赖人工筛选,链路会非常长,效率也很低。
OceanBaseLakebase 在这个场景的核心价值是:让数据存得下、算得动、用得起。
它在这里要做的是,把视频和多模态数据变成可处理、可搜索的数据资产。系统支持视频拆分、事件切片、关键帧抽取、场景识别和特征向量化,再结合向量搜索、结构化查询和多模搜索,让业务团队从海量行车数据中快速找到需要的样本。
对于智驾企业来说,OceanBase Lakebase 不只是一个存储系统,而是支撑模型持续迭代的数据底座。它帮助客户把海量行车数据变成训练样本和测试样本,降低数据准备成本,加速模型迭代。
证券类企业并不是没有数据,恰恰相反,它们的数据非常丰富。既有行情、交易、财务、客户等结构化数据,也有研报、公告、制度文件、新闻舆情等非结构化数据。真正的挑战在于,这些数据类型复杂,加工难度大,整合效率不高。
OceanBase Lakebase 在这个场景中,可以作为多种类型数据的处理与服务中枢。它可以统一对接多类异构数据源,并对研报、公告、制度文件等内容进行智能解析、语义理解和内容提取,建立索引。
比如在报告智能化解析场景中,系统可以对研报、行业报告、公司研究报告进行自动解析,提取标题、摘要、标签、行业、证券信息和研究机构等关键内容,让投研资料更容易沉淀和复用。在制度文件管理场景中,它可以对监管制度、合规文件、反洗钱相关文件进行分类、识别、摘要和标签提取,支撑后续的制度检索和合规问答。
单纯的交易型数据库,无法完整覆盖多模态数据处理需求;单纯的数据湖,也很难满足企业级管理、搜索和服务化要求。
AI 时代需要的是一个新的湖库一体数据底座,既能管好结构化数据,也能处理多模态数据;既能面向人提供分析能力,也能面向 Agent 提供可调用的数据能力。
过去 OceanBase 已经形成了完善的数据库产品体系,支撑了大量客户核心系统的稳定运行。在这个基础上,面向 AI 时代新的数据处理需求,我们进一步构建了以 OceanBase Lakebase 为核心的 AI 数据库。
从一体化数据库到 AI 湖库,我们希望既能支撑好企业核心系统的稳定运行,又能支撑好 AI 场景下新应用的快速落地。
Lakebase 是 OceanBase 面向这个方向迈出的一步。我们希望通过 Lakebase,帮助企业把分散的数据接进来、管理好、处理好、搜索到,并最终服务于 AI 应用和业务创新。
这条路一定会有很多技术同行者,也一定还有大量工程问题需要持续解决。但方向是清楚的:未来企业的数据基础设施,必须能够同时理解结构化逻辑和非结构化语义。
OceanBase 希望在这个方向上,和客户一起把底座做深,把场景做实。
热门跟贴