打开网易新闻 查看精彩图片

距离春节只剩一个月了,2024 也已经过去,借此机会我们整体回顾一下这一整年所看到的数据库领域现状与变化。

目录

1 当红辣子鸡:向量数据库与 AI

1.1 Forrester 的 Vector Database Wave

1.2 各个数据库或云厂商发布的 Vector 功能

2 分布式数据库: 数据库领域的“金色飞贼”

3 国产数据库与信创

3.1 本次目录中的集中式数据库

3.2 本次目录中的分布式数据库

4 开源与商业

5 PostgreSQL 在经历一场缓慢的崛起

6 数据库领域的融资事件

7 Gartner 的数据库魔力象限

8 云厂商们的重要发布

9 其他

9.1 腾讯云 TDSQL 再创 TPC-DS 世界纪录

9.2 WeSQL- 基于 S3 的 MySQL 数据库

9.3 AI 与数据库的其他结合

9.4 图数据库

9.5 学术会议与奖项

10 关于

10.1 关于作者

10.2 参考链接

当红辣子鸡:向量数据库与 AI

AI(或者说 LLM)所展现的能力,似乎还没有看到上限。而基于此的,面相各行业的应用,也在蓬勃发展。数据库和这个领域最大的结合点,就是向量存储与搜索了。在这一年里,几乎所有的主流数据库,都推出或增强了相关功能。Forrester 也率先发布了独立的 Vector Database Wave ,对各个数据库的向量处理能力做了评估。

Forrester 的 Vector Database Wave

在今年的 Q3,Forrester 发布了独立的 Vector Database Wave,其中 Zilliz(对应开源产品名:milvus)凭借完整、高效的向量数据处理能力处于绝对领先的位置。后续厂商分别有:DataStax、Microsoft、Amazon、Oracle、Pinecone 等 [30]。

打开网易新闻 查看精彩图片

现在,几乎所有的数据库或云厂商也都在投入“向量”技术,这类 AI 技术与应用也都在快速演进,向量存储与应用的竞争还远没有结束。

各个数据库或云厂商发布的 Vector 功能

再过去的 2024 年,各个数据库厂商都争相发布了自己在向量方向的支持。具体的:

  • 百度云发布了独立向量数据库产品:VectorDB[14]

  • TiDB 发布了 Vector Search (Beta),将向量能力与 TiDB 做了很好的融合 [10]

  • pg_vector 发了最新的 0.8 版本,并且在大量的项目中被广泛使用 [11]

  • Azure 发布自己的向量数据库扩展 DiskANN,并在多个数据库产品中使用 [29]

  • MariaDB 也在 11.6 版本开始全面支持向量特性 [12]

  • OceanBase 4.3.3 版本发布,支持了向量数据存储与索引功能 [31]

  • MySQL 9.0 也开始支持向量存储 [13]

  • 此外,几乎所有云厂商的 PostgreSQL 产品都支持了 pg_vector 插件

分布式数据库:

数据库领域的“金色飞贼”

在整个关系型数据库领域,分布式数据库的市场份额应该是比较有限的。但是,因为其解决的是一个非常困难的问题,而且是大型用户通常需要解决的问题,所以,“分布式数据库”在 RDBMS 领域一直都是一个关键的“组件”。

在中国,主要的分布式数据库厂商有:OceanBase、TiDB、TDSQL、GoldenDB、PolarDB 等,这些产品在一些垂直场景各有优势。在今年 07 月,IDC 发布了《中国金融行业分布式事务型数据库市场份额》报告 [7],则很好的反应这个现状:

  • 腾讯 TDSQL 获得整体市场份额第一 [9]

  • OceanBase 则获得了金融行业本地部署市场份额第一 [8]

  • 阿里云在公共云市场的分布式数据库部署,取得第一

  • GoldenDB 获得银行本地化部署细分市场第一 [33]

从这些数据中,可以看到中国金融行业分布式数据库的情况 [7]:整体市场空间约为 2.2 亿美元,同比增长 12.1%,其中公共云占比约为 30%,专有云占比为 70%。

由于 TiDB 更加坚定的开源、国际化策略,在这次数据中并没有看到 PingCAP 去太多的宣传。TiDB 的重点则在 Cloud、国际化、Vector Serach 等方向。

国产数据库与信创

随着全球局势变得更加不确定,对抗思潮的不断推高,更加“自主可控”的基础技术已经变得越来越重要了。在今年的 9 月,“中国信息安全测评中心”发布了最新一批的安全可靠产品认证名录 [36]。相比往期目录,经过认证的数据库数量是增加了,并且额外新增了分布式数据库目录。

本次目录中的集中式数据库

集中式数据库主要厂商有华为 GaussDB、金仓、神通、海量、瀚高、华为 TaurusDB。

打开网易新闻 查看精彩图片

本次目录中的分布式数据库

分布式数据库厂商很多,包括了 PingCAP TiDB、达梦、PolarDB、金仓、GBase、神通、虚谷、TDSQL、GaussDB、GoldenDB、OceanBase 等。

打开网易新闻 查看精彩图片

开源与商业

在今年初,最为广泛使用的缓存数据库 Redis 改变了其原有的开源协议:将从 Redis 7.4 版本开始转而使用 RSALv2+SSPLv1,不再使用 BSD 协议 [25]。

很快,在 Linux 基金会下很快启动了 Valkey 项目,该项目同时获得了如 Amazon、Google、Oracle 等厂商的实际支持 [26]。而今年,AWS 也正式在自己的云平台上正式支持了 Valkey[27],此外,阿里云 PolarDB 也发布了 Redis 协议接口支持(Orca)[28]。

此外,今年,CockroachDB 对开源协议做出了重大调整,对于使用开源的用户进一步做出限制。具体的,可以理解为对于小企业(年收入 1000 万美金,似乎也不是很小…)免费使用,年收入超过 1000 万美金的企业则需要付费 [34]。

PostgreSQL 在经历一场缓慢的崛起

依旧,PostgreSQL 在经历一场缓慢的崛起,MySQL 则在原地踏步。在 2022 年的总结中,就曾给出了这个结论 [50],而这个趋势似乎越来越明显。

打开网易新闻 查看精彩图片

图片虽然,在 DB-Engines 的排名中,MySQL 依旧优势很大,但,过去的一年,MySQL 在引入创新版后,发布 8.1/2/3/4、9.0 版本,但,MySQL 最大的进步本身,大概就是版本迭代的模式变化,而这种变化给 MySQL 创新带来的效果还没有出现。在 9.0 版本中 MySQL 虽然发布了 vector 但功能还非常不完善,而 PostgreSQL 的 pg_vector 已经被广为使用了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在由 JetBrains 发布的 《State of Developer Ecosystem Report 2024》[47],也可以看出类似的趋势。该数据显示:

  • 从 2019 到 2024 年,MySQL 的采用量从 60% 下降到 52%

  • 从 2019 到 2024 年,PostgreSQL 的采用量从 30% 增长到 45%

打开网易新闻 查看精彩图片

数据库领域的融资事件

受大环境的影响,除了 AI 或大模型相关技术除外,最近两年融资市场都非常冷清。但在过去的 2024 年,在数据库领域,依旧有非常多的亮眼的融资事件。

达梦数据库上市:首日公开交易,发行价为 86.96 元 / 股,到年底,达梦的股价上涨到 350~400 元上下波动,市值则高达 250~300 亿之间。

PostgreSQL 托管初创公司 Tembo 获 $1400 万美元 A 轮融资 [1] ,该公司以开源产品的形式提供完整的 PostgreSQL 生态产品托管服务,同时提供 Tembo Cloud 以云产品形式提供托管服务。

OpenAI 收购 实时分析数据库开发商 Rockset[2],其估值约为 5~10 亿美金,以增强大模型在实时数据搜索与分析的能力。

ClickHouse 收购 PostgreSQL 数据同步公式 PeerDB [3],具体收购金额并没有透露,但具报道,PeerDB 在 2023 年曾完成了 360 万美元的种子轮融资 [4]。

开源时序数据库 GreptimeDB 宣布完成数百万美元的新一轮融资。GreptimeDB 是一款 Rust 语言编写的时序数据库,具有分布式,开源,云原生,兼容性强等特点,帮助企业实时读写、处理和分析时序数据的同时,降低长期存储的成本 [5]。

K1 100% 收购 MariaDB。K1 是最大的小型企业软件投资公司,总部设在加州曼哈顿海滩。MariaDB 是一个独立的 MySQL 分支,由 MySQL 的创始人 Michael Widenius 发起并创建 [15]

Supabase 完成 C 轮 8000 万美元融资,该平台以 PostgreSQL 为中心,向开发者提供各类服务的平台,包括数据库、认证服务、存储、实时事件同步、向量数据库等 [24]

ApertureDB 融资 $8 百万美元,致力于构建 AI 时代的多模数据流服务,帮助企业更加敏捷的构建上层的智能化的服务 [31]

Gartner 的数据库魔力象限

在今年的 12 月,也就是前几天,Gartner 正式对外发布了 2024 数据库魔力象限 [48]。今年,依旧由 Google、AWS、Azure、Oracle 领跑;MongoDB、DataBricks、Snowflake 则又向左上角前进了一些。

阿里云则依旧保持在领导者象限。华为云则在时隔两年后,再次进入该象限。

分布式数据库厂商 SingleStore 进入,而 Yugabyte 跌出。

打开网易新闻 查看精彩图片

云厂商们的重要发布

AWS re:Invent 发布新的数据库产品 Aurora DSQL ,提供了跨区域、强一致、多区域读写的能力,同时具备 99.999%(多区域部署)的可用性,兼容 PostgreSQL;同时发布的还有 DynamoDB 也提供类似的跨区域强一致的能力 [6]

阿里云李飞飞发布由 Data+AI 驱动的多模数据管理平台 DMS[22];RDS 产品则主打“降本增效”发布了自研倚天 ARM 版、集群版、新增了加速 IO 方案(BPE)等,PolarDB 则发布了 Redis 协议接口

字节火山云 veDB MySQL 发布透明 HTAP 支持,当前处于邀测阶段。采用了 MySQL plugin 架构方式,在内核侧自动分流 AP 和 TP 请求,如需手动分流,可以使用 Proxy[19]。

腾讯云开源了 TXSQL [17];TDSQL 再创 TPC-DS 世界纪录,以 7260 万 QphDS 的性能和 37.52 元 /kQphDS 的性价比打破榜单纪录,性能提升 282%,成本降低 37% [32]

在 Oracle CloudWorld 上,Larry 发表主题演讲《Open MultiCloud Era & AI + Cloud Security》,坚定的走多云、私有云战略,发布了 Oracle@Google、Oracle@Azure、Oracle@AWS 等方案 [16]

GCP 的主要发力方向为 AlloyDB;同时也在增强其基础产品的能力,例如 Cloud SQL for SQL Server 现提供两种版本 Enterprise Plus 和 Enterprise。

微软云 Azure 的重点依旧是 Cosmos DB 和 SQL Database。在向量数据库上,Azure 多款数据库发布 DiskANN 向量索引 [42]。

华为云数据库持续在垂直行业、学术、高校等生态上继续投入。基于 openGauss 的项目获得中国通信学会科学技术奖(科技进步类一等奖)[45]。在今年的 11 月份,华为云将原 GaussDB for MySQL 再次更名为 TaurusDB[52]。

OceanBase 开发者大会发布 4.3 发版,高调进入实时分析 AP 领域,同时将支持行存 & 列存一体化、新向量化引擎、物化视图等能力,同时宣布了 OB Cloud 将作为独立的数据库厂商,登陆阿里云精选市场 [23] 。

相比其他数据库,PingCAP 投入了更多资源到 AI (LLM 或者 GenAI,不管叫什么吧)方向上去进行探索,除了支持初步的向量存储之外,TiDB 还可以使用 AutoFlow 和 LlamaIndex 开始的构建一个基于知识库的聊天助手。虽然这个功能与一般意义的“数据库”不那么相关,但是也能看到 TiDB 的执行力和投入之坚决 [35]。

其 他

腾讯云 TDSQL 再创 TPC-DS 世界纪录

腾讯云 TDSQL 再创 TPC-DS 世界纪录,以 7260 万 QphDS 的性能和 37.52 元 /kQphDS 的性价比打破世界纪录,性能提升 282%,成本降低 37%。通过自研 MPP 和并行执行框架,TDSQL 显著提升资源利用率和计算效率,广泛应用于 30 多家金融机构 [32]

WeSQL- 基于 S3 的 MySQL 数据库

这算是一个非常酷的探索。正如 ApeCloud 创始人曹伟所说,“数据库可以做的方向不多”,ApeCloud 在发布了开源数据库的云原生管控平台之后,与今年的 11 月又开源了一个有意思的产品:WeSQL,基于 S3 的 MySQL 数据库。WeSQL 目前属于探索阶段,如果数据存储量很大的测试环境,可以考虑该方案降低存储成本 [37]。

AI 与数据库的其他结合

此外,其他方向诸如,Text2SQL、数据库优化等方向,也有一些厂商在做更多的探索,例如,AWS Redshift 正式支持 (GA) 自然语言生成 SQL 功能,该功能由 Amazon Q 实现,可以再 Redshift Query Editor 中使用该功能 [21] ,Copilot for Azure 新增了对 Azure SQL、 Azure Database for MySQL 的支持等。

图数据库

图数据库是大模型生态的一部分,在过去的一年,各个图数据库厂商也借势迅速发展。

Neo4j 宣布其年度经常性收入(ARR)已超过 2 亿美元,并在过去三年中实现了 ARR 翻番。Neo4j 在快速扩张的图技术市场中的领导地位,以及最近几年图技术对于提升生成式 AI(GenAI)结果的准确性、透明性和可解释性至关重要作用,是增长的核心因素 [38]。

在今年,ISO 颁布了新的 ISO/IEC GQL(图查询语言)标准 [40],作为图数据库领域的“SQL”,填补了现有标准在处理图数据时的不足。NebulaGraph 则是首个支持该标准的分布式数据库图数据库 [39]。

学术会议与奖项

今年,在主要的数据库学术会议中,国内的厂商也有很多亮眼的表现。包括:

  • PolarDB 获得 SIGMOD Industry Track Best Paper 《PolarDB-MP: A Multi-Primary Cloud-Native Database via Disaggregated Shared Memory》[43]。

  • 阿里云 PolarDB 获 2024 年度中国计算机学会(CCF)科技进步一等奖 [41] 。

  • KaiwuDB 在国际权威数据库性能测试 benchANT 获得时序数据库场景第一名 [46]。

  • 基于 openGauss 的项目《面向大型企业规模应用的开源数据库》获得中国通信学会科学技术奖(科技进步类一等奖)[45]。

  • 腾讯云 TDSQL 获得深圳市科技进步一等奖 [44]。

  • 此外,在今年,主要的大数据库厂商在 VLDB/ICDE/SIGMOD 等学术会议上均由论文发布。

关 于

关于作者

周振兴,NineData 联合创始人 & 技术副总裁 ;Oracle ACE ;《高性能 MySQL 第三、四版》译者;曾任阿里云数据库资深技术专家。

[01] https://tembo.io/blog/series-a

[03] https://clickhouse.com/blog/clickhouse-welcomes-peerdb-adding-the-fastest-postgres-cdc-to-the-fastest-olap-database

[04] https://techcrunch.com/2024/07/30/real-time-database-startup-clickhouse-acquires-peerdb-to-expand-its-postgres-support/

[05]

[06] https://aws.amazon.com/rds/aurora/dsql/

[07] https://www.idc.com/getdoc.jsp?containerId=prCHC52443324

[08]

[09]

[10] https://docs.pingcap.com/tidbcloud/vector-search-overview

[11] https://github.com/pgvector/pgvector/tags

[12] https://mariadb.com/kb/en/vector-overview/

[13] https://dev.mysql.com/doc/refman/9.0/en/vector.html

[14] https://cloud.baidu.com/product/vdb.html

[15] https://www.prnewswire.com/news-releases/k1-acquires-mariadb-a-leading-database-software-company-and-appoints-new-ceo-302243508.html

[16]

[17]

[18] http://static.cninfo.com.cn/finalpage/2024-08-31/1221078114.PDF

[19] https://www.volcengine.com/docs/6357/1314096

[20] https://docs.percona.com/everest/index.html

[21] https://aws.amazon.com/about-aws/whats-new/2024/09/amazon-q-generative-sql-amazon-redshift/

[22]

[23]

[24] https://supabase.com/

[25] https://github.com/redis/redis/commit/0b34396924eca4edc524469886dc5be6c77ec4ed

[26] https://www.linuxfoundation.org/press/linux-foundation-launches-open-source-valkey-community

[27] https://aws.amazon.com/about-aws/whats-new/2024/10/amazon-elasticache-valkey/

[28] https://help.aliyun.com/zh/polardb/polardb-for-mysql/user-guide/orca-overview

[29] https://azure.microsoft.com/en-us/updates/v2/DiskANN-indexing-on-Azure-Database-for-PostgreSQL

[30]

[31] https://siliconangle.com/2024/10/10/aperturedata-raises-8-5m-multimodal-ai-database/

[32]

[33]

[34] https://www.reddit.com/r/devops/comments/1eytts3/cockroachdb_is_changing_license_again_moving_to/?rdt=33989

[35]

[36] http://www.itsec.gov.cn/aqkkcp/cpgg/202409/t20240930_194299.html

[37] https://wesql.io/

[38] https://neo4j.com/press-releases/neo4j-revenue-milestone-2024/

[39] https://www.nebula-graph.io/posts/nebulagraph_enterprise_5.0_gql_support

[40] https://www.iso.org/standard/76120.html

[41]

[42] https://ignite.microsoft.com/en-US/home

[43] https://2024.sigmod.org/sigmod_awards.shtml

[44] https://cloud.tencent.com/developer/article/2419668

[45] https://www.china-cic.cn/Detail/24/5924/5924

[46]

[47] https://www.jetbrains.com/lp/devecosystem-2024/#db6

[48] https://www.orczhou.com/index.php/2024/12/2024-gartner-cloud-database-magic-quadrant/

[49] https://www.orczhou.com/index.php/what-is-new-database-archive/

[50] https://www.orczhou.com/index.php/2022/12/what-is-new-database-summary-2022/

[51] https://survey.stackoverflow.co/2024/technology#most-popular-technologies

[52] https://support.huaweicloud.com/usermanual-gaussdbformysql/gaussdbformysql_03_0080.html

最后,提前祝大家新年快乐。