来源:2024年度全国农村金融机构科技创新优秀案例评选
获奖单位:福建农信
荣获奖项:信息安全创新优秀案例
一、项目背景及相关设计
1.项目背景
2014年福建农信引入数据脱敏产品(以下称旧数据脱敏系统),该产品对开发测试环境使用生产环境数据时的数据脱敏操作起了较大作用。随着数字化转型战略的深入推进,需要脱敏的数据量急剧增长以及数据应用场景的日益丰富,旧数据脱敏系统已无法充分应对当前多样化的脱敏需求。具体包括:一是脱敏效率无法满足测试、数据挖掘分析等工作的时效要求,针对TB级乃至更大数据量的脱敏需要一周甚至更长时间;二是自动化程度低,需要人工从生产库或磁带库准备好脱敏源数据,配置数据脱敏任务,脱敏作业执行完成后再从脱敏目标库导出数据,每个环节需要人工介入并监控执行结果,花费大量时间精力;三是对信创数据库支持不足,无法直接对在用的国产数据库的数据直接脱敏。福建农信迫切需要建设一套高效、便捷、安全的新数据脱敏系统,满足数字化转型以及数据安全对数据脱敏的要求,从而充分挖掘和利用数据要素价值。
2.项目方案
数据脱敏是指按照一定规则对个人身份证号、姓名、手机号码、密码等敏感数据进行形变、遮蔽等处理,从而实现对敏感、隐私的数据进行保护。数据脱敏按照定义和使用场景不同分为静态数据脱敏(Static Data Masking)和动态数据脱敏(Dynamic Data Masking)。静态数据脱敏是对数据库或文件中存储的原始敏感数据进行一次性处理,将真实数据转化为虚构但保持原有格式和属性的数据的过程。静态数据脱敏一般是对从生产环境卸载出来的静态数据进行的处理。动态数据脱敏则是一种实时数据保护技术,在用户访问数据库时,根据预设的规则和策略,对返回给请求者的敏感数据进行遮蔽或变形,确保只有授权的人员才能看到真实数据。动态脱敏主要用于在线查询、日常运维等场景时,仅为用户显示必要的部分而非完整敏感信息。
为满足不同使用场景需求,项目同时建设了静态数据脱敏和动态数据脱敏两个子系统。其中静态数据脱敏为满足大数据量高速脱敏的需求,系统采用集群多节点架构,支持多个脱敏任务并行执行,单个大文件或者大表分片并行脱敏,脱敏计算节点支持横向扩展。
为保障自主可控,项目采用信创方案,应用软件采用国产或开源组件,使用开源数据库、国产麒麟Linux操作系统,部署在信创服务器上。
3.业务功能
项目包括静态数据脱敏和动态数据脱敏两个子系统,实现不同场景下的需求功能。静态数据脱敏包括以下功能:
一是敏感发现,通过抽取源数据的样本,根据数据特征自动识别数据字段的敏感类型。支持设置抽样的比例、抽样的顺序,识别的命中率等参数,从而平衡识别的速度与准确率。敏感发现完成后,操作员可以对发现的结果进行确认核对,核对完成后生成一个基准版本。后续再次对同一个源数据进行敏感发现时,系统将展示两次发现结果的差异,方便操作员进行确认核对。
二是敏感作业配置,支持配置脱敏模式:数据库到数据库、原库脱敏、数据库到文件、文件到文件等模式;配置数据处理方式:同步表结构、延用目标表结构等;数据库对象同步:索引、函数、存储过程等数据库对象;配置脱敏密钥:设置不同的密钥从而产生不同的脱敏结果数据;配置全量或增量脱敏,以及增量的字段;配置脱敏脏数据的处理方式:不脱敏、按照通用字符串脱敏;配置脱敏的并发线程数。
三是作业调度,脱敏作业支持单次执行,也支持周期性调度,可以选择按分、时、天、周、月进行周期性调度执行。单次执行可以选择立即执行也支持选择未来某一时间点启动执行。
四是脱敏规则,系统内置了常见的敏感数据类型,例如姓名、电话、证件号码等类型。系统也允许自定义敏感类型,支持正则表达式、固定分段、分隔符、指定位置、百分比位置、脚本分段等多种数据分段模式。从而支持大部分系统未内置的敏感数据类型。
动态数据脱敏,是通过旁路代理实现的,被脱敏的数据库不需要做任何改造即可实现,通过访问动态脱敏代理的地址和端口,即可根据用户身份决定是否脱敏,授权用户可看到真实数据,非授权用户看到的则是脱敏的数据。
动态脱敏系统业务功能主要包括:
一是数据源管理,配置需要被脱敏的数据库的访问地址、端口、用户等信息,以及动态脱敏代理的访问地址、端口。
二是敏感发现,与静态数据脱敏系统的敏感发现功能类似,系统自动根据规则发现敏感数据类型,且支持参照监管的分类分级标准对敏感数据进行分类分级,便于设置脱敏策略。
三是脱敏策略配置,支持配置哪一级别的敏感数据进行脱敏,例如可以设置一级敏感以上的全部脱敏;哪一些用户身份访问时脱敏或者不脱敏;支持配置具体每个字段的脱敏方式,例如全部或部分字符用特定字符(*、?或字母、数字等字符)替换,也支持随机用字母或数字等字符替换。
二、创新点
为满足数字化转型背景下,业务系统项目开发、测试、数据挖掘分析等对数据脱敏效率、数据安全等方面的需求,我们在新数据脱敏系统建设过程中进行以下四个方面的创新。
1.文件及表分片处理
大部分数据脱敏系统仅实现一个脱敏作业内的多表并行脱敏,即不同的表或文件可以分配到不同集群节点并行脱敏处理,一定程度上提高了脱敏效率。但这种并行粒度不够细,当单个表或文件较大时,脱敏的速度仍然很慢。为了最大限度提升脱敏效率,我们提出了大表和大文件拆分并行脱敏的处理方案,并通过队列组件实现集群节点并行脱敏,增加集群节点即可进一步提升脱敏速度。
大表拆分并行处理的难点在于如何均分数据并确保数据没有漏处理且没有重复处理。我们对涉及的每种数据库进行深入分析,根据各数据库的特点给出不同的方案。例如Oracle,可以利用它自带的散列分区表对数据进行拆分处理;AS400的数据库则是利用它隐含的记录号RRN(Relative-Record Number),RRN模节点数进行求余数,从而将数据均分到各个集群节点。
2.流程自动化
为保障数据安全,数据脱敏系统部署在相对独立的一个区域内。一般脱敏需要以下步骤:一是从生产环境卸载或从磁带库恢复出脱敏的源数据;二是将脱敏源数据装载到脱敏库中;三是配置数据脱敏作业并执行;四是将脱敏的目标数据卸载成数据文件供给数据申请人。我们通过任务完成标志文件触发的机制实现四个步骤流程自动化。并设计了预置脱敏作业,支持脱敏源数据准备完成之前预先配置脱敏作业,数据准备完成后即刻启动脱敏作业,脱敏作业完成后自动触发数据卸载任务并通知相关人员,实现了流程自动化。
3.自定义类型数据支持
随着银行业务的发展,业务系统不断增加,业务系统包含的敏感数据类型也随之增长,特别是复合敏感类型的数据。例如有些系统的客户号组成规则是证件类型码+证件号码+补足常量字符。又例如有些数据字段是姓名+电话号码。为了快速满足各种新增的敏感数据类型的脱敏需求,我们设计了自定义敏感类型的配置功能,支持正则表达式、固定分段、字典识别等多种方式识别新增的类型。同时系统支持自定义脱敏算法,无需进行系统改造或软件更新即可支持绝大部分新增敏感类型数据脱敏。
4.信创支持
随着国产化的深入发展,金融行业内部业务系统持续进行国产化转型升级,使用国产化数据库的业务系统也日渐增多。为了支持国产化数据库的数据进行脱敏,新数据脱敏系统对业务系统涉及的国产数据库进行了适配。同时,新数据脱敏系统本身对信创操作系统、数据库、服务器进行适配改造,满足自主可控要求。
三、项目过程管理
福建农信于2023年9月启动数据脱敏系统升级项目,2024年6月完成系统编码、测试,7月在省联社上线投产运行,计划9月份推广到地市分支机构使用。
四、运营情况
数据脱敏系统升级项目投产后,新数据脱敏逐步取代了旧系统,持续为开发测试、数据分析挖掘等场景提供数据脱敏服务,平均每周脱敏数据1T左右的数据量。
五、项目成效
新数据脱敏系统投产后,脱敏的效率大幅提升,且有效降低人工操作工作量,并加强了运维过程中的数据安全管控。
效率提升方面,新系统投产前使用旧数据脱敏系统脱敏较大量的数据需要耗时2周;同样数据量使用新数据脱敏系统脱敏2天内即可完成并提供到数据申请人,效率提升了7倍。
降低工作量方面,一是旧数据脱敏系统需要人工逐个表逐个字段识别敏感数据以及敏感类型,工作量巨大;使用新数据脱敏系统敏感发现的功能,人工只需要对识别结果进行确认,工作量下降的同时提升了敏感类型识别的准确率并降低漏识别的概率。二是旧数据脱敏系统需要人工从生产库或磁带库导出数据后再导入脱敏库,之后再配置脱敏任务进行脱敏,脱敏完成后再手动导出数据给申请人;新系统则支持直接对生产库导出的数据进行脱敏或自动导入脱敏库并自动启动脱敏作业并在完成后自动导出数据文件,工作量降低至原来的三分之一。
使用动态脱敏功能,业务系统运维人员通过数据库客户端软件执行sql语句查询数据看到的敏感数据是脱敏后的数据,从而加强了运维场景中的数据安全管控。
六、经验总结
数据脱敏系统升级项目建设,有效满足了福建农信业务系统测试、数据分析挖掘等用数需求的时效性,保护数据安全,为进一步推进数字化转型打下坚实的基础。接下来我们将不断完善数据脱敏系统,积极探索人工智能在数据脱敏领域的应用,实现非结构化数据的脱敏,切实保护数据安全。
更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。
热门跟贴