数据质量管理是所有数据类项目重点关注的领域,从20多年前的数据仓库到如今的数据湖、数据中台,企业都试图将通过对改善数据质量来提升数据的价值。

数据质量问题盘点

接下来我们盘点下企业一般都会遇到哪些数据质量问题:

数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。

数据准确性:准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。

数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。

数据完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。

数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。

数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

数据质量根本原因

产生数据质量问题的原因有很多,但是有些问题的发生仅是表象,并不一定是导致错误数据的根本原因。

要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。

对于数据质量问题采用量化管理机制,分等级和优先级进行管理,严重的数据质量问题或数据质量事件可以升级为故障,并对故障进行定义、等级划分、预置处理方案和Review。

量化的数据质量使得我们可以通过统计过程控制对数据质量进行监测。一旦发现异常值或者数据质量的突然恶化,便根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节。所以在根因分析的过程中,要不断的去追踪数据进行问题定位,确定问题最早出现的根本原因进而使问题得到有效解决,达到治标又治本的效果。

我们在数据问题根因分析章节中已经详细描述了数据质量问题的根因分析步骤和方法,这里就不再加以重复描述了。

数据质量制定解决方案

事实上,没有一种“一刀切”的方法来保证企业每种业务的每种数据的准确性和完整性。

企业数据质量的治理需要结合数据问题对业务的影响程度以及数据问题发生的根本原因制定数据质量管理的解决方案。

明确数据质量的改进目标,制定数据质量问题处理策略,并立即付诸行动。

提高数据质量的方法

数据质量却是数据分析准确性的前提,那如何提升数据质量呢?当然离不开工具。亿信华辰自主研发的数据质量管理平台EsDataClean,一站式轻松搞定质检全过程,能够有效地管理与掌控数据质量,提高业务数据的正确性、适时性、完全性、一致性与相关性。

要想真正解决数据质量问题,明确业务需求并从需求开始控制数据质量,并建立数据质量管理机制。从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理

正所谓,工欲善其事,必先利其器。亿信华辰睿治数据治理平台的数据质量管理模块以全面质量管理PDCA循环管理方法为指导,充分结合国内数据质量管理工作的特点,运用元数据管理、数据挖掘、数据分析、工作流、评分卡、可视化等技术最终帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、规范性、及时性、一致性、逻辑性等,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。

1、构建数据质量规则库

定义数据验证方法,内嵌空值检查、值域检查等13种检查规则,基本覆盖目前数据质量相关问题。

2、发现数据质量问题

灵活定义多模型质检方案,多点监测、多模型质检方案,高效调度,并发和串行处理相结合,性能高效,只需2分30秒,便可完成20条规则百万级数据的质量检查。

3、出具全面的“体检报告”

内置常规质检分析报告,实时可视化呈现质检结果,质检结果模型灵活扩展,充分利用了BI工具的分析展现能力,提供图文并茂的质量检查结果报告。

4、数据质量全流程管理

提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能,不仅能发现问题、还能将问题分发给数据负责人、管理者,在线跟踪问题处理进展。

随着大数据的发展,企业用数需求与日俱增,直接解决数据质量问题变得比以往任何时候都更加重要。

技术的发展、业务的变化、数据的增加也让企业的数据环境变更日益复杂和多变。

因此,企业的数据质量管理是一个持续的过程,永远也不会出现所谓的“最佳时机”,换句话说,企业数据质量管理的最佳时机就是“JUST DO IT!”