规范、严谨、可靠——数据全流程服务之数据清洗篇

中科易研

2021-09-23 08:26

从创立至今，中科易研就与北大、清华、北师大、中国人事科学研究院、中国科学院、中国社会科学研究院、中国教育科学研究院等知名科研院所建立了长期、稳定、良好的合作关系，为其提供数据采集、数据清洗、数据检索、数据管理、数据分析和可视化、数据资源整合等全流程数据服务。

在数据全流程服务中，数据清洗是提高数据质量的重要手段之一。

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。

随着信息处理技术的不断发展，各行各业已建立了很多计算机信息系统，累积了大量的数据。但人们常常抱怨“数据丰富，信息贫乏”，究其原因，一是缺乏有效的数据分析技术；二是数据质量不高，如数据输入错误、不同来源数据引起的不同表示方法，数据间的不一致等，导致现有的数据中存在这样或那样的脏数据。有效的数据清洗能最终使数据保持一致性、正确性，从而大大提高数据质量。

数据清洗需要坚持的两大原则：

备份原始数据

01

数据清洗是个繁琐、反复又容易出错的过程，清洗之前和清洗过程中一定要备份原始数据。备份原始数据一方面可以出错时重复清洗，另一方面可以在清洗之后检验清洗质量。

不修改原始数据

02

清洗过程中，切记不能修改原始数据。

数据清洗中通常要坚持以下操作标准：

1. 清洗过程必须是可追溯、可复现的；

2. 中间过程必须保存，做到可回溯；

3. 清理方案必须是科学的、符合常识的；

4. 清理数据过程中要遵守谨慎原则；

5. 编写清理程序进行数据清洗，拒绝手工直接修改数据。

数据清洗方法

数据清洗的方法和步骤通常要结合具体应用具体分析，很难一概而论。根据过往丰富的实操经验，我们归纳总结出以下几种常见情况数据清洗方法：

值缺失处理方法

01

大多数情况下，缺失值必须手工填入（即手工清理）。当然，某些缺失值可以从本数据源或其它数据源推导出来，这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值，从而达到清理的目的。

准确性检测方法

02

用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值，也可以用简单规则库（常识性规则、业务特定规则等）检查数据值，或使用不同属性间的约束、外部的数据来检测和清理数据。

重复性解决方法

03

资料库中属性值相同的记录被认为是重复记录，通过判断记录间的属性值是否相等来检测记录是否相等，相等的记录合并为一条记录（即合并/清除)。合并/清除是消重的基本方法。

不一致性解决方法

04

从多数据源集成的数据可能有语义冲突，可定义完整性约束用于检测不一致性，也可通过分析数据发现联系，从而使得数据保持一致。

噪音处理

05

分箱法。分箱方法通过考察数据的“近邻”（即，周围的值）来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。
回归法。可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性（或变量）的“最佳”直线，使得一个属性能够预测另一个。多线性回归是线性回归的扩展，它涉及多于两个属性，并且数据拟合到一个多维面。使用回归，找出适合数据的数学方程式，能够帮助消除噪声。

数据清洗看似简单，真正做好则不易。根据我们十余年的行业经验，除遵循以上原则和方法外，还需坚持数据清洗与分析进行有效的前后衔接，才能真正提高数据质量，挖掘出数据的价值。

将数据清洗与数据分析处于割裂的状态，可算是行业中的一种通病。当早期的问卷设计中存在不完善或严谨的地方，最终原始数据就可能存在非结构化、业务逻辑前后矛盾的现象。这样给后期数据清洗就会带来诸多问题，而且可能会在数据清洗上花费大量的工时成本。

凭借着科学、严谨、可靠的执行团队，在过去的几年里，中科易研先后与教育部、国务院发展研究中心、国家卫生部卫生发展研究中心、中国科学院、中国社会科学院、中国老龄委科学研究中心等机构合作，承担数十个国家重大项目的数据录入、清洗、分析、数据平台建设等工作，获得了广大客户的高度认可，在激烈的市场竞争格局中始终处于领导者地位。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴