01 什么是一体化数据开发治理平台
数据已成为当今企业最重要的资产之一,即便是在如今AGI不断智能进化的时代,离开了数据作为AI训练的基础,AGI也仅仅只是一个空白的大脑。在企业数据资产积累的过程中,不论是数据湖、数据仓库、湖仓一体还是数据要素市场,这些大数据汇集平台的建设,都离不开对数据进行开发和治理的过程,而该过程的实现效率、管理成本、运维复杂度都与企业数据开发治理体系的发展水平密切相关。
企业的数据开发治理体系,通常都离不开数据集成、数据开发、数据资产、数据质量、数据服务等内容。但由于不同企业数据平台建设发展的过程不同、方式不同、阶段不同,导致了开发管理平台的建设现状也各有千秋。数据资产建设起步比较早的企业,通常由于市场上工具、技术发展不够完善,会为特定的数据需求分别搭建不同的平台系统。例如企业内部会有单独的数据开发平台,单独的数据服务平台,单独的元数据管理平台,单独的数据资产平台,并且各平台的供应商都不一样。前期这些平台各自解决各自的需求,互不干涉,也能比较好地服务于IT和业务部门。
然而,随着各个平台承接的需求范围不断扩展,平台的功能也在不断迭代,后期就会导致相互越界,甚至职责不清的情况出现。例如,数据血缘关系可以在元数据管理平台找到,也可以在数据资产平台找到,还可以在开发平台找到,哪个平台的血缘信息最准确、最可信,没有人知道。另外,各平台系统虽然相互独立,但在企业整个数据建设的链路中又存在着相互依赖、信息传递的关系。例如数据开发平台往往又会用到数据质量平台的相关质量规则,数据资产平台又会接入数据开发平台的开发成果。随着数据建设体量的不断扩展,各平台之间的信息传递和协作的及时性、一致性问题往往也会暴露出来。
一体化的数据开发治理平台,是将企业中与数据建设过程相关的数据集成、数据开发、数据资产、数据质量、数据服务等功能以模块化的方式集成到一个统一的大平台中,这个大平台拥有统一的基础架构,统一的元数据管理(CyberData统一元数据服务),统一的任务调度管理(CyberScheduler调度引擎),从而形成统一的数据开发治理能力。
02 一体化应该包含哪些内容
建设一体化的数据开发治理平台,通常需要包含如下模块:
1、数据集成
数据集成解决的是将业务数据从A数据库/A平台传输到数据仓库/数据湖的过程,在这个过程中需要兼容不同的数据源类型,考虑数据传输的效率、数据传输的稳定性、数据传输的方式(整库、离线、实时)等,以确保可以将各类业务系统的数据进行抽取和传输到统一的数据平台之上,供后续的数据湖/数据仓库建设使用。
2、数据开发
在数据开发过程中,将会基于设计好的数据模型对集成过来的各类源数据进行整合与逻辑处理,以使数据拥有良好的可分析形态,为业务改善和决策提供数据支撑。良好的数据开发平台需要支持不同的数据底座引擎(如云平台、Hadoop、MPP、关系型数据库等),不同的数据开发语言(SQL,spark,flink,python,shell等),以及不同的数据处理时效(批处理,流式处理)。
3、任务调度
数据处理逻辑编写完成后即形成一个个数据处理任务,每一个数据处理任务之间都有严格的依赖关系,前一张表的数据没有加载完,依赖于这张表的下一个数据处理任务就不应该被执行。任务调度平台专门负责根据各任务之间的依赖关系进行数据任务的执行触发,使用何种触发策略(手动、定时、条件依赖)、同时可支持多少个任务并发提交、如何监控任务运行状态、如何管理任务依赖关系、如何保障任务异常失败的恢复/重试机制,都是一套健壮的任务调度平台需要拥有的能力。
4、数据标准
数据标准是定义数据有效性的基础规则,例如身份证号码必须为18位,产品名称不能为空,客户年龄必须大于0,这些都是对数据有效性的标准定义。在数据平台中,只有符合这些标准的数据才允许被流转到下一环节,允许提供给业务使用。数据标准的定义、维护与执行都是数据标准平台需要管理的范围。
5、数据建模
数据在进入数据仓库被组织之前,需要确定使用何种模型来设计数据结构。数据建模平台可以定义数据的逻辑模型(星型模型、雪花模型、宽表模型)、物理模型、主题域,以及模型之间的分层(ODS,DWD,DWS,ADS)关系,同时可以管理模型、发布模型,进行模型版本管理。另外,数据模型还可以关联引用数据标准平台中定义好的标准规则,将标准与物理模型相结合,以确保数据在进入模型时得到良好的管控。
6、数据质量
企业中业务系统纷繁复杂,各业务系统的数据质量参差不齐。业务数据被接入到数据仓库之后,还需要进行严格的数据质量监控,数据质量平台负责定义质量规则,检查方式,质量结果展示,质量问题处理策略制定。同时,需要将有质量问题的数据通过便捷的方式通知业务数据相关负责人,便于业务改善源头数据质量,进而提升数据仓库的数据质量。
7、数据安全
数据安全是数据使用的基础要求。数据在整个开发与流转的过程中,都需要数据安全平台对其进行管控与干预。数据安全包括数据的分级分类、数据脱敏、数据访问策略管理、数据权限管理等能力,同时需要与数据集成平台、数据开发平台、数据服务平台进行紧密协作,以确保整个过程的数据安全。
8、数据指标
数据指标是可以直接服务于业务的具有业务属性的数据单元,业务报表的组成元素就是数据指标。数据指标中通常包含业务定义、技术定义、以及管理定义。通过规范的指标体系搭建、统一的指标设计,可以有效避免数据应用层报表泛滥、口径混乱、含义模糊等问题。
9、数据服务
数据治理完成之后,就可以对外提供数据服务。数据服务平台的核心能力是通过定义标准的服务接口,将数据以规范化的形式暴露给下游的用数系统。在这个过程中,需要对服务定义,服务发布,服务管理、服务安全策略、服务调用监控进行全面覆盖。
10、数据资产
数据在开发过程中产生的所有元数据以及数据本身均属于企业的数据资产,数据资产平台是对企业所拥有的数据资源进行统一管理和查阅的平台。数据资产平台通常包括元数据管理、数据目录和检索、数据血缘、数据地图等功能。
03 赛博数据平台CyberData一体化数据开发治理平台
赛博数据平台CyberData,作为数新智能倾力打造的一体化数据开发治理平台,其优势不仅体现在技术架构的先进性与灵活性上,更在于其全面赋能企业数字化转型的深厚实力。
赛博数据平台CyberData是由数新智能自主研发的一体化数据开发治理平台,基于流批一体、湖仓一体、数智一体的现代数智架构设计,采用容器化可扩展多节点架构,支持国产化信创环境,兼容公有云平台、私有云平台、MPP、传统数据库等多种数据引擎底座。可提供一站式包含数据集成、数据开发、任务调度、数据标准、数据建模、数据质量、数据安全、数据指标、数据服务、数据资产的平台能力。CyberData旨在帮助企业快速构建一站式数据服务体系,拉通数据流转的各个环节,建立完整、统一的数据开发管理架构。
数新智能长期重视国产信创方向,打造国产信创全环境稳定运行的数智一体化平台,支持主流的国产数据库系统,如镜舟、达梦、奥星贝斯OceanBase、飞轮、南大通用、人大金仓等;支持飞腾、鲲鹏、海光、申威等芯片;支持主流的国产操作系统,如银河麒麟、欧拉、统信等;支持适配国内主流云厂商,如阿里云、腾讯云、华为云、中电云等。
目前CyberData已服务金融、制造、能源电力、教育科研、政务、泛互等众多行业,帮助企业快速释放数据的价值。
未来,随着数据成为驱动企业决策与创新的核心引擎,CyberData一体化数据开发治理平台将持续引领企业数据治理的新纪元。我们坚信,随着技术的不断演进与迭代,CyberData将进一步深化其模块化、集成化、智能化的特性,为企业提供更加高效、灵活、安全的数据管理解决方案。
热门跟贴