众所周知,数据是企业数字化转型的核心要素,大数据建设的目标是为了融合组织数据,增加组织的洞察力和竞争力,实现业务创新和产业升级。而数据能发挥价值的大小依赖于其数据的质量高低。如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生有害的结果提高数据质量是为了巩固大数据建设成果,因此,高质量的数据是企业业务能力的基础。

什么是数据质量管理?

1.数据质量

数据质量在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。

数据自身的质量很好理解,比如数据必须真实准确地反映实际发生的业务,任何业务操作的数据都没有被遗漏,数据存在各种约束条件,这种约束条件不能自相矛盾等等。

数据的过程质量就是数据的使用过程符合标准规范,比如数据存储:数据是否被安全的存储到了合适的介质上,能够保证数据不受外来因素的破坏。当然数据存储只是数据使用过程的一个环节,除此之外还包括获取、传输、应用和删除等一系列的使用过程,这其实也是数据生命周期的各个阶段。

2.数据质量管理

数据质量管理指对数据在每个阶段里可能引发的各类数据质量问题进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平确保数据质量的提升。

换句话说,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。

数据质量问题根因分析

说到数据质量问题的原因,做过BI或数仓项目的小伙伴肯定都知道,这是一个业务和技术经常扯来扯去、互相推诿的问题。在很多情况下,企业都会把数据质量问题推给技术部门,让技术部门去查找和处理。但是企业的数据质量问题真的都是技术引起的吗,技术部门人一定会说:“这个锅我不背!”

其实,影响数据质量的因素主要就技术、业务、管理三个方面,下面我们就来从这三方面分析下产生数据质量问题都有哪些原因。

1、技术方面

数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。

数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。

数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。

数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。

数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。

数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。

业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重。

2、业务方面

业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。

业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

数据作假,对,你没看错,就是数据作假!操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。

3、管理方面

认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。

没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。

缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。

数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。

缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。

缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。

如何做好数据质量管理

正所谓,工欲善其事,必先利其器。亿信华辰睿治数据治理平台的数据质量管理模块以全面质量管理PDCA循环管理方法为指导,充分结合国内数据质量管理工作的特点,运用元数据管理、数据挖掘、数据分析、工作流、评分卡、可视化等技术最终帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、规范性、及时性、一致性、逻辑性等,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。

打开网易新闻 查看精彩图片

(2)数据规范

主要从数据模型和数据标准两个方面定义好数据规范:

①数据模型:是数据特征的抽象,是获取和明确企业数据需求的方法,也是数据需求分析与建模工作的基础,通过对展现客观事物的信息进行抽象、综合、分类,组织为具有某种结构的数据,对这些数据结构、其相互之间逻辑关系、数据操作方式及约束的描述。在实际的建模过程中,数据模型所描述的内容包括数据结构、数据操作、数据约束三个部分。

②数据标准:是对数据模型的另一种延伸,是数据资产管理的核心基础,也是对企业数据资产化进行准确重定义的过程。数据标准可以促进企业数据模型落地,对企业业务系统中关键数据进行标准化起到了关键性作用。但是,真正数据标准并不是规范文档、流程文档、制度文档等,而是通过一套由管理规范、管控流程与技术工具共同组成的体系逐步实现数据信息化标准的过程。

打开网易新闻 查看精彩图片

在数据模型的落地和推动过程当中,往往会遇到由于各组织人员认知不同、看待问题的角度不同以及其他内外部原因等限制,导致数据在集成与互通的时候会遇到数据不一致的问题。所以,在做业务系统的数据模型设计之前,企业要设计一套相对标准的数据规范。通过数据标准规范来反向推动业务进行数据收集,解决数据不一致的问题。

数据质量管理是企业数据治理一个重要的组成部分,企业数据治理的所有工作都是围绕提升数据质量目标而开展的。要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。