大数据的建设和管理是一个专业且复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据汇聚、清洗加工、中心存储、资源目录编制、共享交换、数据维护、数据失效等等过程。中间任何一个环节出问题,都将导致数据质量问题。

大部分大型组织经过大数据建设,已经获得比较好的数据建设成果,也有了比较可观的数据量的积累,但将这些数据直接拿来支撑业务的办理却是一个很大的风险,原因就是只要一笔数据不正确,都可能带来很大的业务风险,导致客户的抱怨,这也正是业务部门对大数据建设成果报有怀疑态度的重要原因。

在大数据建设项目的执行过程,将其分为事前预防、事中监控、事后改善三个阶段。

1、事前预防

制定质量管理机制:基于数据管理的复杂性和诱因的多重性特点,解决数据质量问题仅仅依靠一个技术工具是不够的,我们需要建立长效工作机制。即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等。

制定数据质量标准:数据标准成功定义的与否,直接决定了大数据建设的成果和数据质量的高低,需要在融合国家标准、行业标准和地方标准的基础上,融合组织自身的业务特色需求。

制定质量监测模型:数据质量模型代表的是业务需求,它是从业务需求的角度而描述出来的质量需求。

制定质量监测规则:数据监测规则代表的具体的质量检测手段,它是从技术角度来描述数据质量要求是如何被满足的,包括规范性、完整性、准确性、致性、时效性、可访问性,等等。

2、事中监控

监控原始数据质量:数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分为“好数据”“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复,因为数据来源部门最懂这些数据,也最能在源头上把数据问题彻底修复掉。

监控数据中心质量:经过各种采集、清洗、加工过程,数据被存入数据仓库中,这些数据也将被业务部门使用,所以,对于这些成果数据的质量监控和修复则犹为重要。对于这类数据问题,我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。

反馈数据质量问题:数据质量监控过程中,会发现两类问题,一类是源头的数据质量问题,一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。

考核数据质量考核:数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。

3、事后改善

修复数据质量问题:发现质量问题不是最终的目标,我们仍要建立相关的流程和工具,通过手工、工单、自动化等等手段将质量问题修复掉,从而为业务创新提供可靠的数据支撑。

收集数据质量需求:通过数据中心的建设,质量问题的修复,必然能够促进数据的应用,我们仍要建立通畅的数据质量反馈通道,让各个部门参与到数据质量的再次完善中来,从而形成建设、应用和反馈的良性循环。

完善质量管理制度:制度和流程的建设并不是一蹴而就的,我们要在数据建设和质量完善的过程中,结合自身组织结构和业务特色,不断完善工作制度。

完善数据质量标准:各行各业不断涌现新的业务形态,原有的业务也在不断的变化,我们要紧跟业务的变化,不断完善符合业务需求的数据标准。

完善质量监测模型:如前所述,监测模型代表的业务需求,业务形态的变化、数据标准的变化和质量新需求的出现,同样要求监测模型能够做出相应的变化。

完善质量监测规则:同样,如今的信息化技术发展日新月异,我们要不断引入各种新技术来更加智能地发现和修复数据质量问题。

利器:亿信数据质量管理平台

工欲善其事,必先利其器。数据核检工具主体内容是数据核检规则,这些规则要体现不同的数据质量要求,比如根据合规性要求,数据口径必须符合监管要求,就要将监管要求的数据口径转化为检核规则,再运用这些规则对各系统中的数据进行检核。另外,根据唯一性原则,需要对一些重要信息进行跨系统检核,判断其是否唯一。

亿信华辰数据质量管理平台EsDataClean提供了业界领先的全面质量评价方法、零编码质检规则定义、跨数据源比对、丰富的质量分析报告、数据整改、质量绩效评估、质量报告等主要功能,运用元数据管理、数据挖掘、数据分析、工作流、评分卡、可视化等技术,助力银行建立数据治理体系。

  • 助力构建数据质量规则库

1. 内嵌13种规则,基本能覆盖目前数据质量相关问题。

2. 可由实施工程师在图形化界面上根据业务需求配置,无须编写脚本。

3. 如规则不够,还可以动态扩展。

  • 灵活定义多模型质检方案、性能高效

1. 多点监测、多模型质检方案,高效调度,并发和串行处理相结合。

2. 性能高效,只需2分30秒,便可完成20条规则百万级数据的质量检查。

  • 提供图文并茂的质量检查结果报告

1. 内置常规质检分析报告,实时可视化呈现对质检结果的分析。

2. 质检结果模型灵活扩展,充分利用了BI工具的分析展现能力,快速实现客户化扩展定制。

亿信数据质量管理平台已成功应用于多家银行机构,助力建设数据质量管理系统,部署了数据质量检查规则万余条,覆盖了上游各业务应用,检查范围涉及数据字段完整性、数据字段业务有效性、数字字段业务关联性、数据字段业务唯一性等各个维度,从而实现对数据质量的全面监控。

最后,我们要想把大数据建设做好,就要把数据质量做好。要把数据质量做好,就要充分理解业务,要了解大数据建设的全部过程,要从更高的视角来发现和解决大数据建设过程当中的各种问题。