2021年12月18日,一年一届的2021金融科技、监管科技、区块链蓝皮书发布会(以下简称“蓝皮书发布会”)成功举办,受疫情影响,本次发布会采用直播形式,偶数科技受邀出席并作演讲。

蓝皮书发布会由中国社会科学院社会科学文献出版社、中国支付清算协会、中国金融学会金融科技专业委员会等机构指导。北京区块链技术应用协会(BBAA)主办。

本次大会发布了《中国监管科技发展报告(2021)》、《中国金融科技发展报告(2021)》、《中国区块链发展报告(2021)》,三部年度蓝皮书分别由中国人民银行货币政策司司长孙国峰、中国人民银行科技司司长李伟、中国证监会科技监管局局长姚前担任主编。

三部蓝皮书均由中国人民银行等权威机构指导,社会科学文献出版社授权出版,汇聚了来自监管机构、银行、科研院所、行业名企等的专家、学者及行业代表共同参与编写。同时发布了的“金融科技产业图谱”、“监管科技产业图谱”和“区块链产业图谱”,重点描述了各自领域内的产业生态、细分领域和代表性企业,有助于客观、全面、正确认识各领域发展水平和趋势,为政府部门、企业、投资机构以及行业从业者等提供科学参考。

以下为偶数科技发言实录:

1、数据仓库架构发展路线:无限扩展、超强性能与兼容性

近年来,大数据和云计算技术不断推陈出新,在千行百业尤其是金融行业中更快加速落地,通过改变战略决策、改变企业创造价值和服务方式,不断彰显数据对业务的驱动力。当我们提及大数据和云计算,就不得不提云数仓。云数仓是如何出现在今天金融科技的聚光灯下的?我们可以一起简单回顾下数据仓库的发展脉络。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

数据仓库的发展可以分为四个阶段。从上世纪80年代开始,以Oracle和IBM DB2为代表的共享存储架构是当时的主流数据库产品。早期我们做分析应用还没有专门使用分析型的数据库,仍然是使用经典的事务型数据库。

相信不少开发者对传统的事务型数据库的特性都非常了解,比如SQL兼容性非常好。但在做大规模复杂查询的时候,性能表现得并不是很让人满意,同时由于共享存储架构本身的特点,扩展性并不是很好,通常一个集群只能达到十几个节点。

随着数据体量不断增大,以及用户分析需求的不断增强。从80年代开始出现了专门用于分析的MPP分析型数据库,像我们熟知的Greenplum和Teradata,仍然保持跟传统事务型数据库一样优秀的SQL兼容性,虽然MPP数据库的存储和计算没有分离,但凭这样的并行架构已经能扩展至上百个节点。MPP架构跟传统事务型数据库一样,对云的支持并不友好。

从2000年开始,国内外陆续的提出和提倡大数据平台的概念,也就是第3代的SQL-on-Hadoop架构。比如我们比较熟悉的SparkSQL和Cloudera,可以达到上千个节点,并且对云有一定的支持。但是跟传统的MPP数据仓库相比,在性能和SQL兼容性上都不尽如人意。

那下一代的数据仓库的架构是什么样的呢?我们认为应该是云原生架构。尽管云原生计算基金会CNCF给出了应用层面云原生的定义,但是目前行业还没有统一的云原生数据库的定义。从架构本身的特点以及云设施的特性来看,你可以发现云原生应该是存储和计算完全分离的。云原生架构把MPP和SQL-on-Hadoop的不足之处进行了很好的优化。单个集群可以达到数千节点,同时在复杂查询性能和SQL兼容性上也非常完善。由于存储和计算是完全分离的,所以可以很容易的,也就是云原生的支持主流云平台的基础设施。美国的Snowflake就凭借这样的特性在资本市场上大为吸睛,甚至得到了巴菲特老爷子的关注;在国内,偶数科技自主研发的Oushu Database也凭借计算存储完全分离的架构,获得了很多用户和投资人的青睐。

2、OushuDB架构

打开网易新闻 查看精彩图片

·极速分析型数据库

o领先的SIMD性能优化技术

o实现PB级大数据交互式查询

o性能超越传统数据仓库5-10倍,SQL on Hadoop引擎数十倍

·云原生数据库架构

o计算与存储分离、多虚拟计算集群、弹性扩展、多级资源管理

·完整兼容ANSI-SQL等国际标准

·高兼容性、ACID特性

·无缝支持AI

·国产自主可控

·计算与存储分离

o计算集群之间数据可以方便共享,相比传统数据库很大的一个优点

·多虚拟计算集群

o虚拟计算集群之间资源可以隔离,相互不影响

·可插拔存储

o支持各种对象存储、HDFS和自研Magma分布式表存储

·支持多云、混合云及跨云

o支持腾讯云、阿里云、华为云、AWS,Azure,金山云

o80+%企业使用多云,防止云厂商锁定

·弹性扩展架构

o增删节点时无需对数据进行重分布

o系统可用性高,扩展性好

·多级资源管理

o支持全局-用户-操作符多级别资源管理

oPay-as-you-go

但是OushuDB并不是一个镜像的Snowflake。OushuDB有自己的特色和优势,比如在底层存储这方面,Snowflake只支持对象存储S3,因此只能在AWS上为用户提供服务;

OushuDB除了S3还支持腾讯云的COS存储、HDFS以及偶数自研的Magma存储。这样也就使得OushuDB在不同的云平台,以及私有化部署上都能够满足用户的需求。同时也依托多种存储格式,在混合工作负载和实时分析方面提供了更好的解决方案。

我们可以看到云原生架构的数据仓库有非常多的优势和特点,像计算存储分离、多虚拟计算集群以及可插拔存储,由于时间原因,我就不为大家一一展开了。我想重点分享一下,由于计算存储完全分离促成的集群弹性扩展,从用户侧最直接的感受就是按量计费。

3、成本不变,效率提升

打开网易新闻 查看精彩图片

这样会带给用户什么样的全新服务和体验呢?原来一个复杂查询我们要用10个计算节点要跑一个小时,那现在我们可以选择100个计算节点跑6分钟。同样的IT成本,用户的效率提升了。我相信这样的用户体验,会为包括金融行业在内的众多行业客户带来更加极致的体验和数字化转型的想象空间。