OceanBase CEO杨冰：人工智能时代，如何重构现代数据架构 | 2024 ITValue Summit 数字价值年会|云计算|人工智能|分布式|数字价值年会|杨冰

9月11日-14日，由钛媒体与ITValue共同主办的2024 ITValue Summit 数字价值年会在三亚举行。此次峰会主题为“Ready For AI”，交流经验教训，交叉行业思考，推动创新交易，以创新场景为基础，共同探索AI驱动下数字经济时代的全新机遇，共同打造一场数字经济时代的AI创新探索盛宴。

大会上，OceanBase CEO杨冰以“人工智能时代，如何重构现代数据架构”的主题进行了分享。

杨冰表示，大数据和数据库企业得益于互联网与云的机遇，迅速崛起，期间聚焦于解决分布式系统带来的扩展性和复杂性挑战。AI时代，CIO的关注点已不再局限于这一难题，而是聚焦于如何让应用和业务实现更好的交互，如何挖掘数据价值，实现更精准洞察。从技术架构角度，其关键词已从“分”切换到“合”，是融合、统一。

以下为杨冰演讲内容，经钛媒体整理：

各位嘉宾，大家上午好！非常开心钛媒体邀请我来数字价值年会跟大家交流。

我今天分享的主题是“人工智能时代，如何重构现代数据架构”。如今，数字化已经不是一个新话题了，有些行业处在在深水区，有些行业则在加速进行数字化转型。但今天在转型过程中，加入了一个超级变量——AI，AI目前突破的形态是语言模型和多模态模型，它的发明改变的不仅仅是人和机器的交互方式。我有两个点感触特别深，第一，AI对于整个物理世界的理解力得到了极大的增强。前段时间，听说前谷歌CEO在斯坦福的演讲很有意思，视频很长我就先丢给了AI问它：Eric聊了什么？有哪些有意思的观点？对此你怎么看？几秒钟后就出来了结果。比如，我刚才出去接了一个电话，漏掉了一段关键分享的信息，我可以马上问AI，刚才我遗漏了什么信息？这种理解力和效率结合各种场景，就会极大颠覆很多场景的数字化的实现方式，这是第一个感受。第二个感受是AI正在改变写代码的方式，特斯拉的FSD从30万行代码简化成3000行，很多的程序逻辑被模型替代了，这代表着构建数字世界的方式正在深刻变化，AI的能力不再是写程序时候的一个外挂或者功能强大的函数，而是成为程序逻辑本身。这仅仅是很小的两个点，AI能力的突变正在深刻的改变着数字经济发展的节奏。

在大的变革下，数据架构作为数字经济底座，我们将会遇见很多挑战。第一个挑战，是数据量的通货膨胀，现在亿级的数据量已经是个普通体量了，很多业务线上化或者数据汇聚后者打通后，自然就到了这个量级。第二个挑战，数据孤岛和碎片化严重，现代应用需要用不同的数据模型来描述业务，比如关系模型，图，时序，还有向量，底层用了一堆不同的数据存储系统，但需要分析洞察的时候需要费很大的劲才能将其汇聚，对齐，很多时候这些数据是描述同一业务的不同侧面。第三个挑战就是数字化后对数据的分析需求会爆发，只将数据存在那里是没价值的，只有分析才能挖掘更大的价值，但要想分析的更准确更深刻，数据也需要融合，所以这两个挑战的相关性很强。第四个挑战是数据的安全，越来越多数据被存在云上，而且目前云上的安全和容灾也比较完善，但安全是个相对的概念，同一朵云的安全是一套同构系统的相对安全，如果数据极为关键或者业务连续性要求极高，增加异构系统的备份是相对更安全的选择。最后个挑战，是AI快速发展带来的挑战，AI会加速数据量增长的速度，也会带来对数据使用的新要求，我后面会展开来讲。

从架构层面的挑战看，这几年发展很快，在应用层已经分布式化了，在底层已经云化，这两层的战争已经结束，形成了标准的模式。在PaaS层，上半场最大挑战是在解决有状态数据的分布式的问题，尤其是数据层的软件更是如此。而随着AI入局的下半场，我认为主要的趋势是让系统具备 “分”的能力的同时，消除 “分”带来的复杂性，尤其是让数据能融合，架构能统一。

对于能应对这些挑战的现代数据架构，全球领军IT的的践行者们有很多的共识，无论是老牌的IBM还是云时代的领军者AWS，还是数据领域持续领跑的当红炸子鸡Snowflake，他们的观点有很多的共识，比如应对数据孤岛、跨云部署、多模态数据的处理，对AI/ML的支持、数据的实时分析能力等等。Gartner在今年的Hype Cycle for Data Management的报告中提到，全球最领先的数据管理软件公司有四个特点：第一，必须在云上；第二，其产品线中一定有领先的数据分析类产品，承接持续增强的分析需求；第三，支持多模态数据类型的存储；最后是开源。作为OLTP方向的数据库，我们也非常认同这几个方向，站在数据库的角度总结了五个点，前面几个是比较共性的就不展开讲了，稍微解释下后面三个：多模融合是指，未来的数据存储应该是同时支持关系模型，KV模型，向量、地理位置、时序等不同的数据模型的一体化架构，避免数据的割裂和碎片；开放和灵活性是指对不同基础设施的支持，架构开放解耦不绑定任何底座和硬件，支持异构的云，也支持云和IDC基础设施长期并存的情况。SQL和AI融合主要指AI能力在数据库层的融合，会体现在SQL交互层，运维效率提升方面，后面会展开。

现代数据架构的演进也分上半场和下半场，上半场的主题是云和分布式，中国能发展出一批优秀的数据库公司，具备世界领先的能力，也得益于上半场中国在互联网和云计算方面的高速发展。云的上半场，数据架构的核心问题是如何在解决数据分布式的情况下保持一致且成本最低；具备极强的弹性扩缩容能力，能做到不停机不打扰业务；在出现故障后又自动恢复确保业务不中断；这些都是现代架构下数据库的必答题。当年支付宝被挖断光缆，倒逼我们实现了多地多活架构架构，双十一的流量洪峰倒逼我们解决了极致弹性和高并发分布式事务问题，这是上半场解决“分”的创新，我认为上半场满足了云时代的需求，今天全面适应和拥抱AI时代数据架构应该走向何方？在下半场，分布式带来的扩展性、成本、复杂性，已经不再是问题，从技术的架构角度来看就应该合并同类项，消除不必要的数据碎片和重复建设。未来的应用重点和CIO关注点不应该是分布式如何扩展，而是应该把精力放在关注在如何让系统和客户之间有更好的交互方式，应该放在如何把数据的价值挖掘出来，数据只有融合、交叉才会有更精准的洞察。我们现在从“分”慢慢走向“合”，从产品、引擎、存储架构上走向统一和融合。我旁边放了一张图，这是三代SpaceX的猛禽引擎的架构演进，从杂乱无章到极简主义，工程的难度增加，但是简单并不意味着弱小，V3相比V1增加了1000多吨的推力。我们如何在复杂场景下，让AI更好地用融合的数据给上层应用提供价值，同时屏蔽复杂度，这是所有数据库公司发展的必然趋势。

接下去给大家分享几个一体化数据架构的场景，一个是交易和分析的融合，这种场景有三种场景的情况，一种是实时报表，一天后的报表可以一小时内就看到，但在线库支持交易和离线库支持报表已经有两套体系了，是不是还需要为小时级的报表再建第三套数据？另一种情况是在零售行业中，同一套进销存的系统白天支持交易，晚上盘点分析库存，银行里白天交易晚上跑批的场景也是类似的，在很多场景里仅仅是在不同的时段支持不同的负载，但表结构和数据集是同一套，为此往往需要搭建两套数据存储和一套数据同步系统，是否能让架构变得更简单？最后一种情况是一边在线上做实时交易，一边做营销，两种负载同时进行，如何根据交易的情况分析洞察，给用户最精准的优惠券。实时风控也类似，能不能通过实时分析对几分钟之前的交易特征做出反应，更新风控模型识别出新的风险。在这些场景中，如何把多套体系并到一套里，提供更实时性更高，成本更节约，效率更高的数据架构方案，这正是OceanBase在做的。除了多负载外，多模态的融合也是类似的。KV模型是最常见的数据模型，HBase里大宽表和Redis里的KV缓存应用极为广泛，这些场景往往是受制于原来TP库的一些限制，复制了一份数据出去，做缓存加速或者是多维数据的存储和分析，如今在TP分布式数据库在同一个底座上可以通过增加一个接口就能实现一样的效果，省去了增加一个数据库的成本开销和复杂度开销简化了技术栈，而且数据会更一致，更实时。当然，即便是单独用于 KV 场景，在部署和运维上也是更加简单的。

另一个场景是在融入AI的能力下，能融合更多类型的数据进行智能查询。AI与SQL结合主要是两个方面，一个是AI for DB，一个是 DB for AI，前者是指在 AI 的助力下，运维和SQL查询是否能更智能，在这LLM出来后有了更多的探索空间，比如结合AI的智能提示和优化，如何在 SQL 的编辑器中更高效的写出优雅，精准的SQL语句，如何结合很多诊断分析的知识、决策模型和数据来在SQL的问题诊断中给出更准确的问题分析，甚至如何用AI来做资源管理，这些都是目前我们在探索的，这个今天不展开。另一个方向是看数据库能为AI的场景做什么？现在最流行的就是向量数据库，是AI时代最关键的数据存储，是将物理世界转化成数字世界多维度描述的数据模型，这种模式非常适合计算机认知、对比和计算，尤其对非结构化的图像、视频、音频数据，因为AI能力的提升，使得对这些数据的理解的准确性极大的提升，从而反过来促进越来越多场景会融入向量数据。相比于传统的结构化数据的描述和处理，向量模型的描述并非精确，也更多用于非结构化数据的存储，但有时候这种描述更符合与人类的交互的习惯，比如这东西看起来不错，看起来很像，更多人喜欢……这些都不是精确的描述。有了这种能力，很多的业务的场景以及跟人的交互会变得更加自然，更能结合结构化的精确的信息和非结构化的模糊的描述来表达和处理数据。我们来看这样一个场景：查询离我最近的，评分四分以上的奶茶店中评价最好的，且价格实惠近期热销的奶茶。离我最近是GIS信息，一种地理位置的结构化描述，而“评价最好“可能会是一个非常综合的数据汇总出来的结果，可能有文本，有客户上传的视频和图片，也有结构化的打分，还能还会有语音评价，可以将这些信息做向量化处理做一个综合的评价；价格实惠且热销这些就是实时的销量分析和库存查询了，是典型的OLTP的范畴。这样一个场景往往需要2~3种存储系统相互配合，但今天我们可以通过一种存储系统就搞定，这是我们在分布式的底座上加入更多的能力，甚至加入向量化的能力带来的结果。而目前向量的存储将越来越广泛的应用在AI Native 的场景中，而且往往是需要跟其它结构化的存储配合使用才能有更大的价值。OceanBase通过插件化的机制将蚂蚁内部在人脸支付和安全风控下孵化出来的向量库VSAG融入到了分布式数据库的存储引擎中，达到了强强联合的效果。一方面OceanBase的底座本身对于存在这种数据量较大的数据有很大的性价比优势和扩展性优势，而这个向量类库的算法也是在蚂蚁自身的海量业务场景打磨的产物，跟OceanBase在双十一打磨一样，经受了苛刻且持续的打磨。这里暂时先不展开介绍了，我们会在下个月的发布会中正式发布这个能力，敬请期待，这个类库本身是独立发展且开源的，大家如果感兴趣可以下载来研究。

还有一种一体化体现在异构基础设施上灵活部署的多云原生能力。上云是一个明确的方向，云原生也是上云后架构层面上的最佳实践，云的本质是资源的池化和超卖，而云原生架构的本质是如何充分利用池化资源的基础件：计算、存储、网络来构建上层应用，而不只是用了个容量固定的虚机。而多云原生的本质是在遵循云原生架构的基础上，做到底座异构性、无关性，以及用户对开发者体验的一致性。我们正在跟一个全球知名的快消品客户合作，他们有上千家门店都运行在一朵云上运行，但今天的业务要求更高，也许这几千家门店碰到极端的情况下，有可能停服，这是企业无法接受的。但即便是云出了问题，应该是局部区域，如果在异构的朵云上建了10：1的容灾集群，确保一个云出问题时可以很快切换到另一个云上，确保一个云单独的机房出问题时，1/10的流量承接得住。OceanBase在这方面可以平滑无感的帮助大家解决这样的问题。在整个架构上，如何做到一体化，对上对下对于整个应用，提供现代化架构的能力，这是确定性的方向，也是这种多云原生架构的数据底座提供的价值。我们相信，多云原生一体化数据库必将助力更多企业构建现代数据架构，解决更多的实际需求。

这里，快速分享几个我们正在做的案例。我们在金融、政企方向有大量的客户累计。对于OceanBase来说，过去十年在互联网的高速发展，得以在这个大的命题下，生长出一个新的底座。今天这些场景，是帮我们把上半场打磨出来的技术，做成一个商业产品的好机会。这不仅是数据架构中最为关键的场景，也是人们生活中最关键的场景。OceanBase本身的高性能、高可用和稳定性可以很好的支撑银行、运营商等行业的核心场景，但如何让这些传统的架构比较平滑的迁移到新的底座，我们做了大量的工作，在对Oracle、MySQL的兼容，迁移和并跑的体系上打造了完善的能力。目前有近百家银行和大量的头部保险、证券公司的系统迁移到了OceanBase上，资产超万亿的银行已经超过了20家，超过1/3的机构已经或者正在开始用OceanBase来升级他们的核心系统。在运营商行业，我们支持的几个大的省份已经覆盖了全国3/5的客户了。很多政企和金融客户没有想到的是，OceanBase这种新的架构，不仅提升了扩展性和可靠性，还通过高性价比的压缩技术、多租户技术等使得新架构下计算和存储的硬件成本反而更低，整体TCO下降20%~30%，存储成本下降60%~70%。比如交行在从大机和DB2迁移到云和分布式数据库的过程中，整个扩展性得到极大的提升，具备按需线性扩容的能力，更从容的应对日常的小型业务的大促，也让每日的批处理作业从十几个小时缩短到1~2个小时，通过分布式架构充分发挥出系统的并行能力。在走进千行百业的过程中，我们观察到一个现象，在数字化转型的上半场，大家都在复制互联网架构，互联网技术很好，但比较百花齐放，每一种技术都能在特定场景很好的解决特定问题，但整体能配合协调好并不是件容易的事情，需要投入不少的人力和精力。但互联网的规模效应使得这样的投入变得可能，其ROI也值得为此投入一个不小的Infra团队来开发和维护这些技术，甚至可以外溢孵化出像云计算平台，数据库这样的底层技术产品。但在其它行业落地的时候，这些技术的复杂度带来的成本和效率上的问题会变得尤为显性化，使用这些技术红利的同时也承受着它的复杂度和多样化，云计算通过Service的方式解决了一部分，而在数据层我们也逐步意识到用一体化化的数据架构来抵消这种复杂度会是一个正确的方向。我们开始尝试用一体化的方式，既在解决上半场由于“分”带来的问题，屏蔽掉“分”的复杂度，保留分布式带来的技术红利。同时也为企业迎战数字化下半场做好准备，让数据有机的“融合”在一起，让数据的管理更简单，洞察更高效，为DATA+AI时代更好的挖掘数据的价值，提供一个更高效的底座。

OceanBase非常幸运，赶上了时代发展的红利。而数据库的发展在经历由“合”到“分”，再由“分”到“合”的演进过程。过去十年，第一个阶段数据架构面临的问题更多体现在“多”和“分”两个关键字上，比如说场景多、数据多、引擎多，我们通过分布式解决这些问题。在计算架构上有流、有批。在数据存储上有多样化的数据，但复杂度非常高，尤其是在AI时代，深度的处理和高效处理这些数据的代价是比较高的。同时，对于千行百业来说驾驭和管理的成本也比较高，所以自然而然架构就慢慢的走向了“合”的过程。在AI新时代上，体现出两个关键词，一个词是“融合“，前面的这些数据结构已经稳定了，哪一种最适合描述物理世界的什么场景，优劣势是什么，都有非常丰富的最佳实践了，但如何在一个底座上解决大部分的问题，这是新的命题。在计算架构上，无论是流还是批，这些处理的范式已经比较成熟，但流批一体甚至是融入图计算后的一体化计算框架如何实现，哪一种方式效果最好，还是一个在持续探索和迭代的命题。但无论是存储还是计算，都在往一体化的方向发展，这就是最大的共性，是分久必合的趋势。第二个词是AI，AI提升了计算机对数据的理解力，扩展了能够处理的数据类型，极大增强了数据的处理效率。这三个方面在非结构化数据上尤为明显，比如图片、视频、声音，而这些也是物理世界转换到数字世界最快最原始的方式，一但这些数据能被快速处理和挖掘价值，数字化的进程会进入快进模式。而AI能力的加持和这些需求的爆发，会进一步促进计算架构和数据架构走向一体化。未来，如何让一体化架构更优雅、更简单，是我们这些数据服务商不断探索的命题。而如何在融合一体化的架构之上，更好地用AI赋能的方式，挖掘数据的价值，并赋能业务，是每一位企业家和CIO们，都要思考和解决的大命题。