来源:鑫智奖·2024第五届金融机构数智化转型优秀案例评选
获奖单位:光大证券
荣获奖项:信息安全优秀案例奖
一、项目背景及目标
1.背景
随着金融科技的发展,金融企业积累了类型丰富、数量庞大的数据。数据作为新型生产要素,是进一步加速数字化、网络化、智能化的基础,成为企业的重要资产和核心竞争力。充分发挥数据价值,用数据驱动创新,实现高质量发展,是行业数字经济发展的共识。作为数字经济健康发展的基石,数据安全的重要性愈发突出。
数据分类分级是有效进行数据安全管理的基础性工作,是对数据实施保护与充分应用的前提条件。通过科学合理地对数据进行分类分级,可以厘清数据资产类型、确定数据重要性和敏感度,从而针对性地在数据生命周期各个环节采取适当、合理的防护策略和管控措施,降低数据滥用、泄露、篡改等风险,进而在保证数据安全的基础上促进数据开发利用。
2.现状分析
当前行业内数据分类分级实施面临以下挑战:
(1)证券期货业数据来源广泛,规模庞大,分布在不同的业务统、平台和业务部门,如何尽可能全面地发现和识别公司所拥有的数据资源是一大挑战。
(2)证券期货业业务种类繁多,数据呈现出复杂性高、多样性强的特点。如何对这些数据进行准确识别,同时保证分类分级的科学性合理性,是一大难题。
(3)分类分级效率低,质量差。证券期货业业务系统复杂,表和字段数量大,依赖人工和传统分类分级工具难以高效高质量处理,同时准确性不高,可用性差。
(4)难以持续。数据不断的产生、加工转换、流转,以及业务变化和法规更新,分类分级标准和保护措施也需要定期更新。数据分类分级不是“一次性”的工作,需要建立策略化、自动化、流程化的分类分级工具实现“持续”的数据分类分级。
(5)数据分类分级需要跨部门的协作和支持,以确保全面覆盖和专业确认。证券行业的数据涉及多个部门和业务,需要各个部门之间的密切配合和协同工作。
3.目标
通过本项目,全面发现和识别公司数据资源,明确公司数据分类分级标准,建立高效智能的自动化数据分类分级工具,厘清数据类型,确定数据级别,助力于在数据全生命周期各个环节采取适当的数据安全防护策略和管控措施,提升公司数据管理和安全防护水平,进而保障数据开发利用,释放数据价值。
二、创新点
基于数据分类分级国家和行业标准,结合公司实际情况,制定公司数据分类分级标准,用于统一指导公司数据分类分级工作开展。同时自主设计研发数据分类分级平台,借助规则引擎、机器学习算法等先进技术,提升分类分级打标的系统化、自动化、智能化水平,保证数据分类分级的效率、准确性和可用性。同时系统化的数据分类分级目录,通过API接口等形式对外赋能,为数据安全管控提供支撑。数据分类分级工作实施的相关亮点如下:
1.高质量的元数据管理。基于公司优秀的数据治理水平和高质量的元数据注释,建设完善的关键词知识库,采用元数据关键词、正则、机器学习算法等技术手段,能够快速理解业务,保障分类分级的覆盖率和准确率。
2.数据源发现支持扫描解析、人工导入、流量监测等方式对静态数据源和流动中的数据进行发现。
3.数据分类分级平台支持数据表、字段和公司报表工具数据的分类分级,充分利用表和报表的业务属性提升字段分类的精确性,同时根据字段的级别确定表和报表整体的级别。
4.针对匹配到多种打标规则,数据存在多种分类和分级的情况,数据分类分级平台支持根据业务逻辑、监管要求等因素进行优先级规则配置,对打标结果按科学合理配置的优先级进行智能化展示。
5.关联表智能识别。实现关联表的智能识别和分类分级结果的自动转移。如识别上游表和下游表、主表和从表之间的血缘关系,下游表、从表及其字段可以直接集成上游表、从表及其字段的打标结果。
6.规则可配置可升级。支持自定义数据分类分级的规则,能够根据不同行业和组织的特性和未来数据类型的变化进行灵活配置和调整。
7.人工+自动化打标,在自动打标提高工作效率的基础上,通过人工复核进一步保证准确性和可用性。数据分类分级结果复核的人员覆盖数据治理、数据安全、数据开发,同时平台开放给相关业务人员,做到多视角多维度全面复核,提升数据分类分级的准确性和合理性。
三、项目技术方案
1.数据分类分级保障工作
为保障数据分类分级顺利实施,公司从组织建设和分类分级管理制度等方面建设和完善数据分类分级保障体系。
在数据分类分级标准方面,公司全面调研国家、行业数据分类分级相关法律法规和标准指南,结合公司业务开展实际情况,并经业务、技术、法务、风控等干系部门研究确认,制定公司级数据分类分级标准,用以指导分类分级工作开展。
在数据管理方面,依托于公司优秀的数据治理水平,公司不断加强数据质量、数据标准、元数据管理建设,元数据注释覆盖率和准确率让数据分类分级工作事半功倍。
2.数据源发现和管理
数据源发现支持扫描解析、人工导入、流量监测等方式对静态数据源和流动中的数据进行发现。支持对主流数据库、数仓、文件服务器等多类数据源的嗅探和发现,也能够针对数据源类型、版本、分布、数量、IP地址等信息进行采集、统计,满足不同用户数据资源梳理需求。同时支持通过流量解析对应用系统API中的敏感数据进行发现和识别。
支持结构化数据和非结构化数据的发现和管理。结构化数据方面支持支持Oracle、SQLServer、MySQL、PostgreSQL等主流数据库类型,以及达梦、高斯等国产数据库和Hive、HBase、HDFS等大数据关键组件;非结构化数据数据方面支持各类格式的API接口、docx、xlsx、pdf、txt等常见非结构化数据类型,以及可识别zip、7z等多层嵌套压缩文件中文档内容内容。
3.智能分类分级管理
分类分级配置:支持根据行业标准或企业个性化要求创建数据类型和数据级别。
规则引擎:基于元数据管理,采用关键词、正则表达式等方式,支持灵活的分类分级策略配置,可以根据不同行业、不同业务场景的需求,自定义分类和定级规则。
机器学习:以初步分类的数据作为训练集,利用机器学习算法,依据学习结果,对其他数据进行大批量打标,并不断优化识别策略,挖掘出有效的分类规则,生成分类器。
人工反馈循环:允许人工审核和调整分类结果,反馈至模型训练,提高分类定级精度。
数据可视化:系统提供直观的数据可视化功能,能够以图表、报表等形式展示数据资源的分布、分类分级目录等信息。组织能够清晰地了解数据资产的状态和潜在风险,为数据安全管理和决策提供有力支持。
4.分类分级应用
数据分类分级结果,结合数据应用场景,规划数据安全策略,通过API接口等形式,为数据安全防护产品(如脱敏平台、加密工具、数据防泄漏DLP等)或者其他应用系统提供安全措施和权限管控方面的依据和支撑,从而在数据加工、使用、传输、共享过程中保证安全性。
四、项目过程管理
1.准备和保障阶段:2021年至2023年,建立和完善数据安全管理体系,明确数据安全管理组织,制定数据安全管理制度,调研数据分类分级现状,制定和公布公司数据分类分级标准,启动数据分类分级工作。
2.平台开发阶段:2023年1月-12月。包括行业调研、需求分析、可行性研究、项目规划、团队组建、框架设计、技术选型、系统设计、开发与测试等。
3.上线试运行。2024年1月至2024年3月。包括试点运行、培训与宣传、规则调试等。
4.数据分类分级运营。2024年3月至今。包括数据分类分级规则完善和优化,分类分级平台的推广,分类分级结果的应用和对接等。
五、运营情况
经过长期探索和实践,当前公司已建立了一套较为成熟的数据分类分级机制。基于完善的数据安全组织和制度建设,以明确的数据分类分级标准为指导,立足于公司优秀的数据管理水平,打造出智能化自动化的数据分类分级平台,并充分应用数据分类分级结果,提升数据安全管控的准确度和可靠性。当前经过多轮迭代,数据分类分级平台建立和维护了一套符合证券行业数据分类分级标准的规则库,支持投资者管理信息、交易信息、监管信息、综合管理信息等数据类型和级别的识别和打标,助力于精细化数据安全管控策略的施行。
六、项目成效
数据分类分级工作实施后,为公司带来多方面的积极影响,主要体现在以下几个方面:
1.合规性增强:能帮助公司遵守数据保护法规,如《数据安全法》等,满足监管要求,避免因数据管理不当而面临的法律风险和罚款。
2.提升数据分类分级工作效率和质量:建设数据分类分级平台,能够高效、灵活、智能地对大量且复杂的数据进行分类分级,保障分类分级结果的覆盖率、准确性、可用性。
3.风险管理优化:通过对数据进行细致的分类和分级,公司能更准确地识别出高敏感度和高价值数据,针对性地采取更强的安全控制措施,有效降低数据泄露、篡改或滥用的风险。
七、经验总结
1.建立良好的数据分类分级保障体系。这是数据分类分级顺利实施的前提条件,主要包含组织建设和管理制度设计等内容,明确分类分级的主管部门、干系人、角色和职能、授权机制、制度要求、操作流程、考评机制、原则方法等。
2.技术与业务结合。技术方案应紧密结合业务流程,确保数据分类与实际业务操作相匹配。采用自动化工具的同时,保留必要的手动调整机制,以应对复杂或特殊场景。
3.保持灵活性和可扩展性。在设计和实施数据分类分级平台时,要考虑系统的灵活性和可扩展性。随着业务的发展、数据的增长和相关法规和标准的更新,系统应该能够方便地调整分类标准和访问控制规则,以适应新的需求。
更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。
热门跟贴