随着数据成为企业最重要的资产之一,数据质量的提升变得至关重要。高质量的数据能够支持更准确的决策制定和业务优化。然而,实际应用中,由于各种原因,数据往往难以完全符合预设的数据标准。本文提出了一种结合传统数据质量管理技术和新兴的大模型技术的方法,用于对已存在映射数据标准的字段元数据进行一致性检验。通过传统技术和大模型技术的结合,该方法能够有效识别并修正数据质量问题,从而确保数据的一致性和可靠性。
数据是现代企业运营的核心资源之一,其质量直接影响到企业的决策效率与准确性。为了保证数据的质量,许多组织都制定了详细的数据标准,并通过一系列管理措施来确保这些标准得到遵守。然而,在实际操作过程中,由于系统缺陷、人为错误等因素的影响,数据往往会偏离既定的标准。因此,如何有效地检测并纠正这种偏差成为一个亟待解决的问题。
近年来,随着人工智能特别是自然语言处理领域的发展,大模型逐渐被应用于多个行业,展现出强大的信息提取和模式识别能力。本研究旨在探索将此类先进技术融入到现有的数据质量管理流程之中,以期提高数据一致性检验的自动化水平及精度。
一、相关工作
1.数据质量管理
目前主流的数据质量管理方法主要包括:事前控制,在系统设计初期即引入严格的审核机制;事中校验,利用统计分析手段于开发或测试阶段发现潜在问题;事后治理,项目上线后持续监控并调整。
此外,还有多种具体的技术手段被用来辅助上述过程,比如函数依赖关系识别、特征工程等。
2.大模型技术概述
大模型是指参数量极大(通常超过数十亿)、训练数据集庞大且覆盖广泛领域的深度学习模型。这类模型具备强大的泛化能力和上下文理解力,在文本生成、语义解析等方面表现优异。大模型技术主要有四大显著优势。
首先,大模型通过海量的数据训练,积累了丰富的知识储备,这使得它能够理解和认知各类形式的数据,并具备一定的数据模式理解能力。这种能力使得大模型在处理复杂和多样化的数据时表现出色。
其次,大模型能够基于领域语料进行预训练,快速掌握领域知识。通过少量的数据指令微调,大模型能够迅速适应不同的领域数据治理任务。这种预训练加微调的方式,已经成为大模型落地应用的常见策略,为数据治理提供了极大的便利。
再次,大模型能够应对模态丰富的数据。在如今多模态大数据盛行的时代,大模型展现出了卓越的性能。它能够处理包括文本、图像、音频等在内的多种模态数据,为数据治理提供了更广泛的可能性。
最后,大模型的 Agent(自治智能体)功能使得自动化数据操控和数据治理规划成为可能。Agent本身具备规划和策划的能力,结合大模型的海量数据和模式理解能力,可以实现复杂场景的决策和规划任务。尽管目前这一功能需要依赖真正的大规模大模型,但未来随着技术的不断进步,我们希望大模型能够适配或者胜任更多复杂场景的决策和规划任务。
二、方法论
本文提出的框架包括以下几个主要组成部分。
1.数据准备
一是收集现有数据:从各个业务系统中抽取需要验证的数据样本。
二是定义数据标准:根据企业内部规定整理出相应的数据格式要求。
2.特征分析
使用数据对数据特征进行分析,最终来验证数据库实体定义的正确性。
(1)数据特征识别。通过对数据进行分析,获取数据所有具有的技术属性,见表1。
表1数据特征识别
通过数据的特征识别可以获得的结论见表2。
表2 通过数据的特征识别可以获得的结论
(2)函数依赖关系识别
函数依赖是存在于数据库表中的关系,或者说是数据库表中的字段的关系,即函数依赖是指关系中属性间(或者说是表中字段间)的对应关系。
设一个关系为R(U),X和Y为属性集U上的子集,若对于X上的每个值都有Y上的一个唯一值与之对应,则称X和Y具有函数依赖关系,并称X 函数决定Y,或称Y函数依赖于X,记作X→Y,称X为决定因素。
函数依赖的分类:
①完全函数依赖。设有关系模式R(U),U是属性集,X和Y是U的子集,如果X→Y是一个函数依赖,且对X的任何一个真子集X'都不存在X'→Y,则称X→Y是一个完全函数依赖(Full Functional Dependency),即Y完全函数依赖于X,即在一张表中字段分为 X 和 Y 两个集合,X集合数据唯一确定一条数据 Y ,X集合字段中的任何一个字段都不能确定唯一一条数据 Y ,就称 Y 完全函数依赖于 X。
②部分函数依赖。设有关系模式R(U),U是属性集,X和Y是U的子集,如果X→Y是一个函数依赖,且对X的任何一个真子集X'都存在X'→Y,则称X→Y是一个部分函数依赖(Full Functional Dependency),即Y部分函数依赖于X,即在一张表中分为 X 和 Y 集合,X集合数据唯一确定一条数据Y,并且X中任意字段或组合字段都可以唯一确定Y集合数据,则称 Y 部分函数依赖于 X。
③传递函数依赖。在关系模式R(U)中,设X,Y,Z是U的不同的属性子集,如果X确定Y、Y确定Z,且有X不包含Y,Y不确定X,(X∪Y)∩Z=空集合,则称Z传递函数依赖(transitive functional dependency) 于X,即在一张表中,字段分为 X、Y、Z,如果X可以决定Y,Y决定Z,但是Y不能决定X,则称Z传递函数依赖于X。
通过函数依赖关系可以获得如下结论(见表3)。
表3 通过函数依赖关系可以获得的结论
3.一致性检验执行
在完成特征分析之后,便可通过数据挖掘的手段进行数据分析,把数据分析后的结果总结为数据分析报告,反馈给数据源系统,再由数据源系统进行问题反馈,最终确定治理方案。
通过数据挖掘算法我们可以识别源系统脏数据问题、数据类型问题、源系统对象实体名称定义不合理问题、码值缺失问题和字段名称缺失问题。
下面从问题识别的难度,由容易到困难的顺序进行阐述。
(1)字段名称缺失问题报告
字段名称缺失问题报告是这几个问题识别中最简单的一个,在前期管理中和事中管理中我们已经完成的源系统元数据的定义,我们通过数据交换中的统一卸数功能,将各个源系统的数据库中的元数据管理系统表卸载出来,与我们数据库表中的定义进行比对,就可以识别出来源系统表结构的变化情况及其中文名称缺失问题,最终将问题报告反馈给各个数据源系统进行数据补录,该问题报告执行周期为每日执行。
(2)数据类型问题报告
对于数据类型,首先要把源系统所有定义为字符型的数据进行数据分析,包括数据的结构,数据的长度等。数据分析后,可以得到数据类型的一个基本判断,在通过判断的结构进行回归验证,最终确定好数据类型报告,再将数据类型报告反馈给源系统进行整改或者说明。类型识别的规则如下。
①日期型。在上面数据规则识别中去数值后的值域为--、//、..和空并且字段最短长度大于等于8、字段最大长度小于等于10,则该数据类型初步定义为日期型,再通过回归验证将分析错误的数据进行清理。
②金额型。去数值后值域为.的字段,回归验证中存在大于1.0的数据定义为金额型。
③费率型。去数值后值域为.的字段,回归验证中不存在大于1.0的数据定义为费率型。
④数值型。去数值后值域为空的字段为数值型。
(3)码值名称缺失报告
首先识别码值缺失的前提是要知道哪些字段是码值类的字段,对于码值类的字段定义有两个来源,一是在事前管理和事中管理中定义中获取的,二是通过数据分析来获取的。对两个来源比较得到结果报告,其中主要有两种情况:第一种是,对于事前管理和事中管理中定义的码值类字段,我们与数据分析识别到的码值进行对比,将缺少的码值加入到报告中;第二种是,对于事前管理和事中管理中未定义为码值类的字段,但数据分析识别为码值类的字段,我们将数据分析识别到的所有码值加入到报告中。
(4)脏数据问题报告
脏数据通常是非常少量的,在字段取值中的比例非常少。所以我们根据这个特征,在数据分析时分析数据类型过程中,统计最大一类数据类型比例的特征,筛选出比例最接近于100%但不到100%的字段,对于这些字段中不符合最大一类数据类型的数据,生成脏数据问题报告。
(5)实体名称定义报告
实体名称定义报告是这几个问题识别中最复杂的一个,首先我们需要通过数据分析得到所有的主键外键,然后通过外键将数据关联并计算字段之间的相等关系(关联后两列数据相等),之后把外键关系构成一张图,对于这张关系图,我们把外键关系剪掉除了最长的外键关系的其他路径,最终得到一张外键的关系图。
之后我们对这张外键的关系图,找到所有仅有出度(即只有从表)的字段,以这些字段分别作为遍历的根节点,按照节点的层次依次分类,对于同一层的类别,当有共同的从字段时进行类别的合并。
最后我们再按照每个分类中的外键,把数据关联找到的相等关系加入,得到了实体名称定义报告。这样报告中同一类别就是一类业务的分类,所有同一类别的从字段的名称应该跟随主字段按业务命名。
4.基于大模型的数据标准审核
一致性检验执行后就已经给出了一些分析结果和报告。但这时的结果和报告仍然比较粗糙,其结果仍然需要专家的进一步分析才能得出一份可靠的分析报告并进行治理,这个过程仍旧还需要相当的人力。
鉴于大模型本身存在相当多的领域知识,它可以扮演一个数据专家的角色,完成在以往需要专家完成的工作。如①利用大模型审核确定是否存在数据问题,通过给出的示例原始数据和对该字段的特征和数据挖掘结果,判断是否确定存在给出的问题。②利用大模型审核当前字段是否符合数据标准的定义,包括名称命名是否恰当,以及是否符合标准定义的业务含义。③利用大模型分析推理自动生成表和字段的中文名称、业务定义描述、分级分类等原来需要大量人工梳理补充的内容,投入的人力资源只需要原来的五分之一,时间周期缩短到原来的十分之一。
为了优化大模型作为数据评审工具的表现,我们探索了几种可能的技术方案:首先,采用一定比例的手动审查来辅助模型训练,通过对这部分人工标注数据的学习来微调模型参数,从而提高预测精度;其次,引入检索增强生成(RAG)技术,结合历史验证过的高质量数据集与模型自身强大的推理能力,加强模型在特定应用场景下的性能表现;最后,赋予大模型直接访问数据库的能力,使其能够基于过往相关字段的历史示例数据做出更加准确合理的判断。
三、实验设计与结果分析
为了验证所提方案的有效性,我们在某金融机构的真实环境中进行了实验。实验分为两个阶段:第一阶段,使用传统方法进行初步筛查;第二阶段,加入大模型辅助工具后重新评估效果。
结果显示,在引入大模型之后,无论是发现问题的速度还是准确率都有显著提升,特别是在处理大量未标注的历史遗留数据时优势尤为明显。
通过结合最新的人工智能研究成果,我们成功地提高了对已有映射数据标准的元数据进行一致性检验的能力。
基于大模型的数据治理技术研究刚刚起步,方兴未艾,但我们相信,大模型应用到数据治理领域一定是未来的发展趋势,代表了一种数据治理领域全新的生产力和生产关系。我们还必须看到的是,大模型作为一个新兴技术领域,至少在未来十年仍旧会高速发展,不管是哪个行业,只有积极去面对、拥抱这种新技术,才有可能在未来的产业格局中占据自己的一席之地。
在未来,我们的工作将进一步探索如何更好地融合不同类型的AI算法以形成更加高效灵活的数据治理体系。
作者介绍
杨立才,昆山农村商业银行数据管理部总经理。具有15年数据规划、数据分析、数据架构、数据治理的规划、设计、项目实施落地经验。有多家银行数据中台,营销中台,数据资产管理,数据服务,数据治理,数据安全,数据仓库、指标库、报表等项目落地经验。近年带领百人团队完成数据体系的规划、落地,实现了数据能力的全线上化,充分满足了数据开发、数据治理、数据管理、数据安全等的日常使用,并且构建了开发、测试、投产一站式管理能力,实现了数据的可视化和结构化管理能力,并在落地实施过程中成功申请了5项发明专利。
热门跟贴