OSS&Tablestore 向量检索能力全新升级，重塑AI时代数据管理|元数据|向量|数据管理|模态|索引

所周知，优质数据是 AI 大模型持续迭代的核心。根据 IDC 预测 2025 年全球数据量将达到 175ZB，在如此繁杂的数据资源中，如何精准地捕捉数据间的语义关系，提升信息检索的效率，成为了大模型的核心竞争力之一。因此，在 AI 生产链路中，向量检索技术通过推理应用实现数据价值，将不同模态的数据在同一空间中进行表达和检索，在自然语言处理、计算机视觉等应用领域起到了重要作用。

近日，阿里云成功举办了“AI驱动：数据管理的进化与创新 ”线上新品发布会。存储的本质是数据服务，其hb.otto388.com价值不止于把数据存下来本身，更在于其便捷的采集、精细的管理、高效的流动与使用。

在数据采集阶段，阿里云运用 OSS 跨区域复制、OSS 传输加速，保障海量非结构化数据高效、安全的传输和统一存储；
在数据预处理阶段，OSS图片处理、OSS数据索引、EBS弹性临时盘能够提升预处理效率，为训练提供高质量的数据集；
模型训练和推理阶段，CPFS 高性能并行文件存储，以及此次全新推出的的OSS Connector for AI/ML能够在大规模、容器化部署的生产环境中，提升模型训练的效率，降低数据集加载时间；新版本 OSSFS、OSS 加速器可以在推理阶段，加速中小模型的快速拉取；
在 AI 应用阶段，阿里云通过OSS 数据索引、OSS 内容安全、Tablestore 向量检索、IMM 智能处理等能力的组合，致力于为客户提供基于现有数据和环境，在云上快速搭建 AI 应用，高效验证业务创新思路的能力。

当前，AI 企业希望面向多模态数据具备开箱即用的数据处理能力，并且一份数据能够对接多种计算引擎和 AI 框架，提升 AI 推理实施的便利性、将传统的单模态数据处理平滑升级为 AI 多模态数据处理。这要求存储系统的检索能力需要新增向量检索的功能，并且具备开放生态、高性能、低成本等特性。然而，当前多样的向量数据库还存在一些挑战，尤其是在向量检索最核心的成本、规模、召回率三个方面。

阿里云 OSS Indexing 发布了向量索引和检索能力。该功能除了可以对 OSS Meta 进行检索之外，还可以对多媒体数据元信息、用户自定义元数据以及向量语义进行检索。OSS Indexing 功能，是依托阿里云表格存储 TableStore 提供的索引存储和检索能力而构建的。阿里云表格存储是一款 Serverless 分布式结构化数据存储服务，依赖于新能力的升级，Tablestore 支持了 RAG 应用及传统的多模态搜索场景，同时也支持了 OSS indexing 的元数据服务。本次发布会上，表格存储针对上述在向量检索领域遇到的成本、规模、召回率等挑战，发布了低成本、大规模、高性能、高召回率的向量检索服务，能以较低成本支持千亿规模数据的存储和检索。

通过gist 数据集做对照测试得出：相同资源消耗情况下，Tablestore索引构建写入完成时间，比某社区开源向量引擎降低 65%，查询时延约仅为开源引攀的九分之一。同时，更低检索时延（Tablestore 71ms/某开源向量引擎 613ms），内存资源消耗仅为开源向量引擎的十分之一。

除此之外，本次发布会还重磅更新了OSS数据湖的生态接入方式，包括高性能的 OSS Connector for AI/ML、新版本OSSFS等。同时，OSS在数据安全、性能和数据管理上针对 AI 负载进行了进一步优化，当前数据处理和检索能力演进主要聚焦在简单易用、更强的兼容性、低成本、AI serverless等方面，即提供开箱即用的 AI 能力。

此次阿里云表格存储向量检索能力的全新升级，推动了智能推荐、内容检索、RAG 和知识库等应用的广泛普及，重塑了 AI 时代海量数据管理的方式。“面对诸多挑战与机遇，阿里云存储将持续进化创新，在 AI 数据 pipeline 全流程中，为客户提供更丰富多样的数据管理能力。”阿里云智能资深产品专家彭亚雄（崆闻）阐述到。