数据已成为企业和组织决策的重要依据,然而,原始数据往往存在各种质量问题,如缺失值、错误值、重复数据等,这些问题严重影响了数据分析的准确性和可靠性。数据清洗作为数据预处理的关键环节,能够有效地解决这些问题,为后续的数据分析和挖掘打下坚实的基础。
今天,让我们一起了解数据清洗的概念、常见问题及实践方法。
01数据清洗概念
大数据时代,必须经过清洗、分析、建模、可视化才能体现其价值,然后众多数据中总是存在很多“脏数据”,也就是不完整、不规范、不准确的数据,数据清洗就是指将“脏数据”洗掉,包括检查数据一致性,处理无效值和缺失值,从而提高数据质量。通过有效的数据清洗,能够确保所有数据集应保持一致并且没有任何错误,为以后数据的使用和分析提供支撑。
以下几个标准有助于定义高质量数据的标准,它们分别是:
有效性:数据与定义的业务规则或约束的紧密程度,一些常见的有效性约束包括:
- 强制约束:某些列不能为空
- 数据类型约束:列中的值必须为特定数据类型
- 范围约束:数字或日期的最小值和最大值
- 外键约束:列中的一组值在另一个表中是唯一值
- 唯一约束:某字段的值在数据集中必须是唯一的
准确性:数据与标准值或真实值的接近程度
完整性:数据属性和数据记录是完整的
一致性:不同系统和主体之间数据度量值的一致性
可追溯性:能够查找(和访问)到数据源
及时性:数据更新的速度有多快,有多及时
这些不同的特征结合起来可以帮助企业拥有高质量的数据并可用于各种不同业务目标,同时对不确定数据的假设量达到最少。
02 为什么要做数据清洗
数据可以说是企业用于支持和指导其业务成功的最重要资产之一,不准确的数据可能会导致的一些问题包括:
- 市场营销:使用了低质量数据的广告活动并联系不相关的优惠用户,不仅降低
- 了客户满意度,而且错过了重大的销售机会。
- 销售: 销售人员由于没有完整、准确的数据而未能联系以前的客户。
- 合规性: 任何不符合客户数据隐私规则的线上业务会受到监管部门的处罚。
- 生产操作: 依据低质量操作数据配置生产机器,可能导致制造公司出现重大问题。
企业如果有干净的数据,那么所有这些问题都可以避免!
数据清洗的好处
- 改进业务实践: 想象一下,如果您的数据记录中都没有重复、错误或不一致的数据。那么您所有关键的业务活动效率会提高多少?
- 提高工作效率: 使企业能够专注于核心业务,而不是专注于找到正确的数据,或者由于不正确的数据而不得不进行更正,这一点至关重要。 干净的高质量数据可以使企业成为行业的标杆。
- 更快的销售周期: 营销决策取决于数据,为营销部门提供尽可能高质量的数据意味着销售团队可以更好、更多的转化潜在客户。
- 更好的决策: 我们之前提到过这个问题,但这个问题很重要,所以有必要重复说一遍。更好的数据=更好的决策。
这些不同的好处结合起来,通常会使企业的业务获得更大程度的改善,这不仅能够让外部销售业务变得更有效,还能够提供更高效的内部管理和运营。
03 关于数据清洗的6个问题
一、数据值缺失
处理缺失值非常重要,因为缺失值会影响数据的分析和决策。因此,正确选择填充或删除策略是很必要的,同时也可以根据具体情况使用不同的统计方法或数据工具进行数据清洗。具体处理方法如下:
1.计算缺失比例
首先,我们可以计算每个字段的缺失值比例,然后根据比例和字段的重要性设置不同的策略。
2.删除不重要或缺失率过高的数据
如果数据不重要或者缺失率过高,我们可以直接删除字段。
3.填充缺失数据
对于重要数据或缺失率较低的数据,我们可以使用以下三种方法来填补数据:
a.根据业务知识或过往经验给出推测填充
b.利用同一指标数据计算结果(如均值、中位数等)填充
c.利用不同指标数据推算结果填充,例如用身份证信息可以揭示年龄等信息。
4.重新获得数据
对于某些缺失率高,且缺失值被认为非常重要的数据,我们可以与业务人员合作,探讨其他渠道重新获得数据的可能性,例如某些数据可能可以通过另一个数据库或API得到。
二、数据值不匹配
在处理数据值不匹配问题时,需要采用一些常规的清洗方法,并结合具体情况采用人工处理等方法,最终保证数据的准确性和完整性。以下是处理此类问题的两种方法:
1.清洗内容中有不合逻辑的字符
在处理这种数据时,主要是要去除不合逻辑的字符,如头、尾或中间的空格、姓名中的特殊字符和拼写错误等。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。可以通过使用数据清洗工具或者编写规则脚本来实现。
2.内容和该字段应有内容不符
在处理数据中出现内容和字段不匹配的情况时,需要采用详细识别、分类处理问题的方法。这部分的处理往往需要人工处理,尽量细致地检查,避免遗漏或误删。处理方法包括:
a.针对某个字段的特殊值或异常值,可以通过检查业务逻辑或者调查来识别原因,并进行修正。
b. 对于乱码等无法处理的问题,除了删除外,也可以先进行分类,再人工处理,提高清洗的效率和准确性。
三、数据重复
处理重复数据需要根据具体情况来选择合适的方法。除了使用现有的数据清洗工具外,还需要结合业务规则和数据特点来进行合理的数据清洗操作。以下是处理重复数据的方法:
1.数据值完全相同的多条数据记录
对于值完全相同的数据,可以使用一些去重工具自动识别和删除重复的数据行。例如,可以使用帆软FDL等数据清洗工具进行去重操作。
2.数据主体相同,但一个属性匹配到不同的多个值
对于这种情况,可以选择通过合并多列数据来实现去重。例如,可以选择使用GROUP BY的SQL语句,将相同的记录合并在一起,或者通过编写脚本来筛选出相同的唯一记录。
需要注意的是,有些情况下可能不应该对重复记录进行去重操作。以下是几种情况:
a. 重复记录用于分析演变规律
在分析数据变化历史时,重复记录是有用的,因为它们可以显示系统迭代更新时的数据变化。
b. 重复的记录用于样本不均衡处理
在数据分析中,有时需要处理样本不均衡的情况。在这种情况下,重复记录可以用于增加少数类样本,从而获得更准确的数据分析结果。
c. 重复的记录用于检测业务规则问题
在检测业务规则问题时,重复记录可以反映业务规则的缺陷和不足。在此情况下,需要人工验证每个记录是否有效,查看是否存在业务规则的漏洞。
四、数据不合理
处理数据不合理的问题需要使用不同的方法分析和清洗:
1.分箱
分箱是将连续变量转换为离散变量的一个常见方法。可以通过将连续数据按照一定的范围分组,将分组后的数据作为一个新的类别进行分析,从而识别不合理的数据点。对于存在异常的箱子,可以将其视为无效数据并进行清洗。
2.聚类
聚类是一种无监督学习方法,可以将数据集中的相似数据分成不同的集群。可以使用聚类来发现不同的数据群体,并查找其中的异常值/不合理值。
3.回归
回归分析可以对数据进行建模分析,来识别模型中的离群值和异常值。通过观察回归模型的拟合效果,可以发现数据集中的异常值、离群值或者不合理数据,并采取相应的措施进行清洗。
需要注意的是,分析数据不合理值通常需要利用统计方法,找出数据中明显偏离正常分布范围的数据点,并考虑其异常性和实际业务情况,进行人工处理。和其他数据清洗操作类似,清洗过程也需要考虑业务逻辑,利用各种方法尽可能地提高准确率和效率。
五、数据字段格式
在进行数据字段格式处理时,必须考虑到业务需要和数据质量要求,并同时验证清洗的有效性。以下是解决此类问题的方法:
1.确定正确的数据字段格式
首先需要确定每个字段应该具有的格式类型,如日期、数字、文本等。然后,对照字段的实际格式类型,识别需要进行格式转换或清洗的字段。例如,可以使用Python中的Pandas库和正则表达式来处理字段格式不统一的问题。
2.清洗文本格式
对于文本字段,应该去除多余的空格、特殊字符、标点符号和其他格式问题。比较常见的文本清洗包括去掉HTML标记、转换大小写、识别并转换URL等。
3.数据类型转换
有时候数据类型在传递过程中会发生变化,需要对其进行转换。例如,将文本型日期转换为日期类型、将字符串型数字转换为数字类型、将布尔型数据转换为1和0等。
04数据清洗的5个步骤
想要更干净的数据?有时,考虑引入外部咨询顾问来帮助您起步会很有帮助。但是在执行此操作之前,企业可以遵循几个常规步骤,以便进入更好的数据清理状态:
一、 制定数据质量计划
首先必须要了解大多数错误发生的位置,以便确定根本原因并构建管理数据的计划。
请记住,有效的数据清洗将会对整个企业产生全面的影响,因此尽可能保持开放和沟通是非常重要的。
数据清洗计划需要包括:
- 负责人:需要一名数据清洗总体负责人,一名首席数据官(CDO)-如果公司任命了该职位的话。此外,还需要为不同的数据集分配业务和技术的负责人。
- 指标:理想情况下,数据质量应用1-100间的某个数字标注。虽然不同的数据可能具有不同的数据质量,但有了总体的数字度量可以帮助企业衡量其持续改进的情况。
- 行动:应确定一组明确的行动计划以启动数据质量管理。随着时间的推移,这些行动方案需要随着数据质量的变化和公司优先级的变化而更新。
二、 在源端更正数据
如果数据在成为系统中的脏数据(或重复数据)之前可以修复,则可节省大量的时间并省去很多工作量。例如,如果表单过于拥挤,需要填充过多的字段,那么这些表单中便存在数据质量问题。鉴于企业不断生成更多的数据,因此,在源端修复数据至关重要。
三、测量数据准确性
通过数据质量监控工具实现对企业数据的实时测量,提升数据质量,确保数据数据准确性。
四、管理数据和重复项
如果一些重复项确实是无意中重复输入的,请确保主动检测出并删除它们。删除所有重复的条目后,还必须考虑以下事项:
- 标准化:确认每列中存在相同类型的数据。
- 规范化:确保所有数据都一致地记录。
- 合并:将多条重复的记录合并为一条有效、准确的记录。
- 聚合:对数据进行排序,并将其以汇总形式表示。
- 筛选:缩小数据集范围,仅包含需要的信息。
五、补齐数据
补齐是帮助企业定义和完成缺失信息的过程,可靠的第三方数据来源通常是管理此做法的最佳选项之一。
完成这5个步骤后,您的数据将可以根据需要进行导出和分析。
请记住,对于大型数据集,几乎不可能实现100%的清洁度。
05数据清洗的实践策略
在任何数据清洗工作中,应牢记几种最佳实践,它们是:
1、以尽可能全面的方式考虑您的数据,不仅要考虑谁来进行分析,还要考虑谁将使用,从数据中分析得出的结果。
2、增加对数据库输入的控制可确保系统最终使用的数据更加清洁。
3、选择能够在出现问题之前可以提醒甚至解决错误数据的技术解决方案。
4、如果是大型数据集,请一定要限制样本规模 ,以便最大限度地减少准备时间并加快数据清理性能。
5、全程抽查,防止任何错误数据被复制。
免责声明:本文素材和观点均基于当前可获得的资料和作者的个人理解进行撰写。本文章及其中所涉及的内容仅供读者参考和交流之用,并不构成任何专业建议、投资意见或法律指导,如文中有涉及您的著作权或所有权问题,请及时联系我们修改或下架文章,谢谢~
(全文完)
派可数据一站式企业级数据可视化分析平台,"零代码数据仓库" + "可视化自助分析" ,为企业提供一站式数据整合平台、数据填报平台以及数据可视化分析展现平台,大量行业及财务供应链等通用类指标体系沉淀,欢迎咨询交流,运营垂询电话!
热门跟贴