打开网易新闻 查看精彩图片

长沙数字集团数据要素案例

该数据要素项目案例由长沙数字集团投递并参与“数据猿年度金猿策划活动——2024数据要素产业年度创新服务企业榜单/奖项”评选。

我国高度重视公共数据的巨大价值,在政策制定、授权运营、平台建设等方面都提出了重要要求。

2020年,中央全面深化改革委员会第十一次会议审议通过《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据作为新型生产要素写入文件,强调加快培育数据要素市场。

2022年,《国务院关于加强数字政府建设的指导意见》要求建立健全数据治理制度和标准体系,发挥公共数据资源作用和创新推动作用。同年,“数据二十条”要求针对公共数据建立确权授权机制、全流程合规与监管体系以及价值收益分配方式等。

2023年,中共中央、国务院印发《数字中国建设整体布局规划》,要求畅通数据资源大循环。构建国家数据管理体制机制,健全各级数据统筹管理机构,推动公共数据汇聚利用。

2023年,市政府发布《长沙市政务数据授权运营试点管理暂行办法》,运营的总体框架和定位进一步清晰,一是明确采用“一场景、一方案、一评估、一评选”的授权运营模式,充分发挥市场驱动的作用;二是明确全市统一搭建授权运营平台,作为本市政务数据授权运营的统一通道。

长沙数字集团作为市级新型智慧城市建设运营专业国有公司,承担着落实市委、市政府打造数据要素大循环中部枢纽、建设新型智慧城市示范城市的战略目标。

时间周期:

项目开始时间:

2024年7月14日:项目招标完成,开展项目启动会,正式开始平台建设。

中间重要时间节点:

2024年7月25日:平台完成部署测试,主体功能开发完成。

2024年7月26日:长沙市公共数据授权运营平台开展上线试运行。

2024年9月30日:全省首款区县政务数据产品和全省首款公交行业数据产品发布,平台开展试运营。

项目完结时间:

2024年11月14日:长沙市首批16个授权运营场景集中签约,平台开展正式运营。

数据要素价值需求

数据要素价值需求

为进一步发挥公共数据的内在价值,利用公共数据赋能行业发展,需要探索具有长沙特色的公共授权运营体系与模式,从顶层设计出发建设公共数据授权运营平台,以满足公共数据授权运营在“供得出、流得动、用得好、保安全、促发展”等多方面的需求,提升公共数据授权运营水平,充分发挥公共数据要素价值,促进公共数据开发利用生态的繁荣与可持续发展。

1、提升数据供给动力的需求

公共数据的供给缺乏动能,受制于确权、运营等机制的不健全,在公共数据供给方面存在“不敢开放”“质量不佳”“需要的数据拿不到”等问题,需要采取措施提高数据开放程度,加强数据整合和质量控制,确保数据的可用性和可靠性。同时,数据要素流通时可能存在数据安全和隐私保护等问题,在推进公共数据的开放运营时缺乏评估机制与激励机制,数据供给后没有明确的收益分配机制,这些都导致了数源部门缺乏数据开放共享的动力,亟需完备的管理机制与平台技术促进公共数据供给。

2、促进数据流通的需求

数据被列为生产要素以来,数据要素领域就具有鲜明的政策导向。诸多政策、管理办法的出台也不断驱动公共授权运营的发展,但国家尚未出台统一的数据运营流通机制,各地均在不断探索可落地可顺利推动的实践路径。亟须建立起全面综合、系统性的管理体制机制,设计规划出明确的商业模式,并建立起涵盖全业务流程的平台,来共同支撑数据要素的流通以及公共数据的应用。

3、挖掘数据价值的需求

数据产品应用场景丰富,在交通管理、生态环保、经济金融等方向,均有公共数据的需求,公共数据应用空间巨大,但由于缺乏便捷的数据获取路径与使用准入机制,导致仅有少量的头部企业可以参与到公共数据的使用和开发中,使公共数据蕴含的价值难以被充分挖掘。需要降低企业的参与门槛,让更多拥有前沿技术、创新能力的主体参与到公共数据的价值挖掘中,加强公共数据的深度开发,进一步拓展公共数据的应用领域和深度,发挥公共数据的乘数作用。

4、保障数据安全的需求

数据泄露问题屡见不鲜,而公共数据中涉及了大量的企业以及个人敏感信息,在数据流通过程中需要确保这些敏感信息不被泄露、篡改或滥用。一方面需要采取严格的访问控制、数据加密、脱敏处理等技术手段,另一方面需要建立完备的安全保障机制与制度,确保数据的安全性。同时,公共数据在应用过程中,还涉及多主体参与、跨网跨域流通等,这些均对数据的安全性提出了更高的要求,需要依托完备的机制体系以及技术平台进行保障。

5、赋能数据主体发展的需求

建设公共数据授权运营平台,为公共数据市场中的多方关联主体提供了发展动力。在政府侧,能够将原有的沉淀在系统中的公共数据进行价值挖掘,为数据产业的发展提供支撑,并在一定程度上通过公共数据的流通应用补充财政资金,缓解财政压力;在企业侧,需要利用平台提供数据要素相关服务,探索可行的商业模式,形成稳定资金收入,促进企业发展;对于其他市场参与主体,需要利用公共数据授权运营平台提供的能力,挖掘数据价值,为自身的生产经营提供更多的动力。

6、有效服务民生的需求

公共数据涉及民众生产生活的方方面面,取之于民,更将用之于民。基于公共数据授权运营平台的建设,利用其提供的数据管理、产品开发、资产价值化等多方面的能力,结合授权运营场景,将公共数据与社会数据、企业数据等进行充分融合,发现关联关系,挖掘数据的内在价值,一方面在政府侧为政府提供政务服务发挥作用,另外在企业侧,支撑公共数据授权运营场景在服务民生方面发挥作用。

面临挑战

面临挑战

公共数据授权运营仍处于探索阶段,面临授权程序合规、数据价值合理分配等诸多难题。

一是公共数据授权运营规则尚未统一。现阶段国家尚未出台统一的公共数据授权运营规则,各地探索各具特色,未形成统一体系。

二是部门间存在信任屏障。政府部门一方面担心数据授权运营过程中可能存在数据泄漏风险,损害国家和公众利益,另一方面担心数据授权运营会影响本部门的权力运行。

三是收益分配存在困难。在公共数据授权运营过程中,涉及提供数据的委办局、数据主管部门、平台建设运营单位、参与数据加工和产品开发的运营主体等多方利益,而且数据天然的公共属性会影响到广大群众的利益,因此怎样进行收益分配、怎样保证公共数据的公益性成为难题。

四是公共数据定价存在难题。公共数据定价过程中需要考虑数据的价值、使用需求和市场供需关系,既要顾及公共数据的公共属性,又要起到主体激励作用,故而要建立适应市场需求、公平合理的定价体系。

五是安全保护技术亟待提高。当前尚处于公共数据授权运营工作的初期,各级政府机关、事业单位所掌握的数据安全防护技术水平还比较低,大部分单位存在数据安保设施配备不齐全、技术研发投入不足、安全防护技术人员欠缺等情况。

长沙市针对上述情况,通过对成都、云南、青岛、北京、温州等数据要素现行地区开展调研,探索出符合长沙市实际情况的公共数据授权运营规则;针对部门间信任屏障,市数据局组织公共数据相关部门和单位签订公共数据开发利用倡议书,倡议公共数据应授权充分授权促进数据价值释放;针对公共数据定价困难和收益分配困难,拉通研究公共数据授权运营收益分配和产品定价模式;针对安全保护问题,复用长沙市数据中台已有防护体系,创新性构建“双沙箱”“双网关”“双授权”的安全体系,实现测试和生产环境隔离,全过程追踪记录各项数据操作,保障个人数据、企业数据隐私安全和合规使用。

数据处理

数据处理

数据管理建设是一个大型的复杂的系统工程,部门多,业务广、系统多、数据多,各部门具有运行与管理的独立性,同时又是一个相互联系、相互制约的整体。数据治理以业务导向、模型驱动的模式,通过部门一级治理和综合二级治理的分级治理模式,保障业务和数据一致性,促进公共数据高质量供给;数据产品开发以场景驱动,分级开发的模式,一级开发以授权运营主体和数据产品需求为对象,结合市级部门数仓建设,开展数据一级开发,提升数据供给质量,丰富数据基础数据能力、基础数据产品和通用模型,促进数据多场景应用、多主体复用,实现数据普惠性,繁荣数据二级开发市场。二级开发围绕终端应用场景,联合行业合作伙伴,建设行业专题库,打造行业数据服务、行业数据产品、行业数据模型和行业数据解决方案等金融行业服务能力。

公共数据授权运营从全市66个单位7610个资源目录199.8余亿条数据中,经过数据分类分级梳理,现阶段整理出可运营资源目录3020个。综合人社、公积金中心、住建、公安、发改委、不动产中心等部门数据,经过加工治理形成金融主题库;融合治理统计局、教育局、交通局、民政、市监、燃气公司、电力公司等部门和单位数据,形成智慧城市主题库;融合治理卫健委、医保局、人社等部门数据,形成陪诊医疗专题库。

应用技术与实施过程

应用技术与实施过程

一、平台建设

以“释放数据要素价值”为导向,通过“数字化、产品化、价值化”路径,实现数实融合,在实际场景中实现数据价值。一是数字化环节,通过物理空间的业务数字化转型,完成业务的数据化;二是产品化环节,以场景应用为驱动,通过数据的汇聚、治理加工、数据产品开发,实现数据产品化。三是价值化环节,一方面,通过数据场景应用,打造数字金融、数字人才、数字文旅等场景运营矩阵;另一方面,通过数据资产化,实现数据的增信、质押等数据的金融授信。

打开网易新闻 查看精彩图片

图1 数据要素全链条布局架构图

授权运营平台是本市公共数据授权运营的统一通道,支持数据供需对接、加工处理、典型案例推广、运营政策宣传和政务数据社会化应用;为公共数据运营提供基础环境,具备流程管理、安全脱敏、访问控制、算法建模、监管溯源接口生成、封存销毁、全程审计、授权管理、过程追溯等功能。具体实施如下:

1、总体架构

授权运营平台整体定位为长沙市公共数据运营“总枢纽”。在市数据局支持和指导下,遵循安全合规、有序开放原则,按照“原始数据不出域、数据可用不可见”的要求,基于市数据中台,为授权运营主体提供授权运营场景的数据加工处理工具和环境,打造公共数据产品应用市场,实现公共数据运营全生命周期安全监管,确保全流程操作可审计、数据可溯源。

打开网易新闻 查看精彩图片

图2 平台总体架构图

基础设施层:整合基础设施资源,营造安全稳定的运行环境。利用计算、存储、网络等资源,构建坚实的硬件支撑体系,为授权运营平台提供稳定、高效、安全的运行环境。

网络层:基于当前长沙市的政务数据域,针对不同行业领域的需求,开辟授权运营域,满足授权运营主体利用公共数据和自有数据开发数据产品的需要。

支撑层:引入隐私计算、区块链等先进技术,建立数据安全屏障。利用隐私计算技术保护数据隐私安全,防止泄露滥用。利用区块链技术实现数据交易全流程可追溯、可监管。复用长沙市统一认证、数据资源管理平台等能力,减少重复建设、提高资源利用率,为平台规范化运营提供有力保障。

功能层:主要包括授权运营主体管理、场景管理、资源管理、产品管理、计价计费、考核评估、安全监管、信息主体授权管理。

应用层:多领域授权运营场景入驻平台。平台已入驻涵盖金融服务、商贸流通、医疗健康、智慧城市等多个领域的运营场景,全方位覆盖并深化各领域服务效能与应用体验。

2、制度体系

构建公共数据运营规范体系,筑牢数据要素市场健康发展基石。以《长沙市政务数据运营暂行管理办法》为引领,以平台业务为核心,开展长沙市公共数据授权运营规范体系建设,实现业务流程标准化、监管在线化、授权运营合规化等要求,具体包括数据安全合规、资产管理、研发管理及运营服务共4类60多项数据基础制度,确保数据运营全流程机制完善。

打开网易新闻 查看精彩图片

图3 长沙市公共数据授权运营规范体系

3、数据开发利用框架

一是创新构建信息资源目录和数据资源目录的“双目录”体系,通过部门一级治理和综合二级治理的分级治理模式,保障业务和数据一致性,促进公共数据高质量供给;

二是基于“政务云+公有云”双云部署,通过“政务数据区”“授权运营区”“互联网区”的三区划分设计,创新数据一级开发和二级开发的数据产品高效开发模式,构建了一个“可用不可见、加工不出域”的安全流通环境,保障公共数据高效流通利用;

三是打造“信息主体主动授权+产品应用授权”双授权机制,保障个人、企业数据隐私安全和数据合规使用。

打开网易新闻 查看精彩图片

图4 数据开发利用框架

4、关键技术

长沙市公共数据授权运营平台关键技术主要包含下述几个方面:

1)AES、访问控制策略和身份验证和授权机制

数据安全和隐私保护是数据平台的核心组成部分,包括实施强大的加密措施,如使用高级加密标准(AES)来保护数据存储和传输的安全。AES是一种广泛使用的对称加密算法,提供了强大的安全性,可以有效防止数据被未经授权的用户访问。访问控制策略确保只有授权用户才能访问敏感数据,而身份验证和授权机制如OAuth和SAML则用于验证用户身份并授予适当的访问权限。OAuth是一种开放标准,允许用户授权第三方应用访问其存储在另一方的信息,而无需分享凭据。SAML则是一种基于XML的标准,用于交换认证和授权数据。

2)云服务与大数据技术

云服务提供了一种灵活、可扩展的方式来存储、处理和分析大量数据。云提供包括计算实例、存储解决方案和大数据处理工具。例如,计算实例可以提供弹性的计算能力,存储解决方案可以提供多种类型的存储选项,如对象存储、块存储和文件存储,而大数据处理工具则可以处理和分析大规模的数据集。大数据技术如Apache Hadoop和Apache Spark支持对大规模数据集进行分布式处理。Hadoop提供了一种可扩展的分布式文件系统和一个用于数据处理的框架,而Spark则提供了一种快速的大数据处理平台,支持批处理、流处理和机器学习等多种计算模式。

3)人工智能与机器学习

人工智能(AI)和机器学习(ML)技术使平台能够从数据中学习并自动化决策过程。这些技术使用算法来发现数据中的模式和洞见,支持预测分析和智能自动化。例如,监督学习算法可以从带标签的训练数据中学习,然后应用到新的数据上进行预测,而无监督学习算法则可以发现数据中的隐藏结构或模式。流行的机器学习库如scikit-learn、TensorFlow和PyTorch提供了工具和框架来构建和训练复杂的算法模型。例如,scikit-learn提供了一系列的预处理、分类、回归、聚类和降维算法,TensorFlow和PyTorch则提供了一种灵活的方式来定义和训练深度学习模型。

二、场景建设

1、数据采集

目前,从长沙市各委办局归集的数据主要以结构化数据为主,同时包含少量的非结构化数据,根据数据类型、数据来源和数据应用服务的特点和要求,数据归集方式主要分为库表数据归集、文件数据归集以及接口数据归集,在接口数据归集方式中,我们构建了接口调用的应答、回调机制,确保接口交互的可信性和准确性,并做好双向日志记录,确保数据可对账。

2、数据仓库建设

数据通过标准的数据治理过程形成标准数据仓库,主要涉及业务梳理、数据梳理、标准梳理、数据整改、数据标准化、数据融合。

1)业务梳理:面向部门业务场景,根据主干业务,梳理业务事项、业务关系和业务角色的业务三要素,包括业务定义、业务的分级分类、业务主题、安全等级、业务标准、业务流程、业务参与者等,形成信息资源目录,理清业务的“人、事、地、物、组织”,构建业务模型;

2)数据梳理:面向业务和应用,梳理业务信息、管理信息和技术信息三类属性,包括数据表、字段、各业务表关联关系、分级分类、业务标准、生产系统等,形成数据资源目录;

3)标准梳理:根据业务的数据标准(国家、行业或地方标准),梳理基础数据元清单、码值字典、规则清单等,形成标准元模型,作为后续数据标准化和质量检测的依据;

4)数据整改:根据数据梳理成果,通用质量检测,开展源头数据整改,保障数据的基本结构质量,形成数据贴源库;

5)数据标准化:基于标准元模型,对贴源库数据进行标准检测和加工,通过质量分析和整改,形成标准库;

6)数据融合:基于标准库,开展多元校核,进行跨域数据融合治理;对业务基础指标和维度进行提炼和融合,依场景、按分析和应用需求,构建基础库和主专题库。目前数据仓库主要包括市医保局、市人社局、市市场监督管理局、市公积金中心、市住建局等66个单位的医保、工商、公积金、房屋等核心数据。

3、数据产品开发

数据产品开发根据场景驱动,分级开发原则。

1)一级开发:以授权运营主体和数据产品需求为对象,结合市级部门数仓建设,开展数据一级开发,提升数据供给质量,丰富数据基础数据能力、基础数据产品和通用模型,促进数据多场景应用、多主体复用,实现数据普惠性,繁荣数据二级开发市场(包括构建个人、企业、资产等维度基础数据、指标和标签,构建个人画像、企业画像和资产画像的基础数据能力、建设标准的数据核验类、数据模型类等通用数据产品)。

2)二级开发:围绕终端应用场景,联合行业合作伙伴,建设行业专题库,打造行业数据服务、行业数据产品、行业数据模型和行业数据解决方案等行业服务能力。

具体数据开发实施过程包括:

1)需求分析:分析业务场景需求,识别关键业务指标,依托脱敏环境,严格遵循数据安全与合规的原则,探查分析数据内容、业务属性、结构、来源、质量等信息,梳理场景的业务需求清单和数据需求清单;

2)模型设计:根据整体数据仓库架构,开展数据架构设计,明确数据分层、数据流等。根据业务需求分析结果,开展业务逻辑设计,包括业务指标、业务标签等设计。根据业务逻辑模型,开展数据模型设计,明确各层物理数据模型和数据映射关系;根据业务逻辑设计调度任务;

3)数据开发:根据模型设计,在开发环境进行业务建模、逻辑建模和物理建模,开展数据清洗、数据转化、数据提取、数据计算等环节形成对应的标准库,根据业务需求,采用逻辑回归、决策树、二分类等算法模型,建设对应的专题库。最后将在开发环境完成的脚本,迁移至生产环境部署,并开发相应的接口服务,形成最终的数据产品;

4)数据发布:数据产品通过合规审查后,上架数据产品超市,对外提供服务。

4、场景成果案例

预筛模型:通过决策引擎制定预筛规则,使用分类模型的评估方法,将明显不符合和存在负面信息的客群排除,结合企业经营规模和盈利情况等挖掘潜在客户,形成的预筛模型评分报告,为银行或金融机构提供客群预筛。

企业第二还款模型:企业第二还款模型是金融机构为了保障信贷业务健康发展和降低风险而设立的一种重要评估机制。通过对企业信用状况的详细分析,确保只有具备足够还款能力和良好信用的企业才能获得贷款。根据长沙市的金融数据情况,从企业资产、法人基本情况、企业经营信息及失信企业名单等方面入手,分析企业和其法人的不动产信息以及企业工商、纳税和负面信息,从而对企业贷款资质进行综合评判,为银行或金融机构提供贷前准入风险分析信息,帮助银行等客户筛选优质企业用户。

企业监测预警模型:针对贷款发放后的不同阶段进行风险识别、评估和管理。贷中阶段是指贷款发放后,至贷款结清前的期间。在这一阶段,风险管控模型主要关注客户的偿还能力、欺诈风险以及资产质量的监测。贷后阶段是指贷款结清前的阶段,此阶段的风险管控模型主要用于评估和控制贷款发放后的风险。通过实时监控和分析贷款资产数据,及时发现潜在风险,为风险控制提供决策依据,长沙市金融专区将实时根据金融数据实时进行模型更新,做到 T+0 为周期为银行等贷款提供机构预警。一旦发现企业资质信息未能满足贷款条件或可能产生后续还款风险,模型将实时风险数据通过接口形式让银行等金融机构客户调用,满足银行风控需求。

生态合作伙伴

生态合作伙伴

以公共数据授权运营为引领,以数据价值闭环为目标,构建全链路数据要素服务,通过“数字星×”伙伴招募,整合数字产业上下游企业生态,招募技术型数商、服务型数商、应用型数商等数商伙伴,全面覆盖数据要素全生命周期。

现已招募入驻生态企业60余家,带动多方主体共同参与数据要素开发利用。其中,北京治数提供数据开发运营的顶层设计咨询;国泰新点软件负责公共数据授权运营平台的建设;市数字集团负责平台运营、一级数据产品开发、数据资产登记评价;湘江金科、省数产集团、长银数科、长财科技、云创征信、创智和宇、天河国云、市静交投、市规划信息中心、天湘和等授权运营主体,以及睿祺数科等数商,在金融领域、健康医疗领域、交通领域和商贸流通领域等,开展领域数据产品开发和运营;联合广东数联等开展数据资产入表,打通数据资源化、数据产品化和数据资产化全过程。

服务效果

服务效果

1、聚焦“供得出”汇数据,打造全省首条政务数据产品生产线

基于长沙市在数据领域积累的丰硕成果,已汇聚全市66个单位199.8亿条政务数据,上架3020个可运营的数据资源目录和42个数据产品,可支持全线上场景征集、解决方案申报,提供“拎包入驻”的数据加工环境,打通数据汇聚、治理、加工、开发、应用、登记、评估、流通、入表全链条。

2、聚焦“流得动”建通道,营造高效流通环境

平台坚持市场导向、应用牵引、以终为始,构建了数据资源和数据资产双向流通链条。依托长沙市数据中台,部署了“原始数据不出域”“可用不可见”的可信数据空间,实现数据跨部门、跨层级、跨区域、跨主体的高效利用。开展“数字星×”合作伙伴计划,现已招募入驻生态企业60余家,带动多方主体共同参与数据要素开发利用。

3、聚焦“用得好”强生态,加快运营场景落地

金融领域,湘江金科、省数产集团、长银数科、长财科技、云创征信、创智和宇等授权运营主体的金融产品持续上架;健康医疗领域,天河国云已完成产品上架;交通领域,市静交投积极推进全市停车“一张网”;商贸流通领域,市规划信息中心的图解长沙、天湘和的智能商业选址应用正在加快变现步伐。一批示范性强、带动性广的典型运营场景正扬帆“数据蓝海”,以点带面助推产业转型升级。

4、聚焦“保安全”强防护,筑牢数据全周期安全堤坝

基于长沙市数据中台已有防护体系,创新性构建“双沙箱”“双网关”“双授权”的安全体系,实现测试和生产环境隔离,全过程追踪记录各项数据操作,保障个人数据、企业数据隐私安全和合规使用;建成了数据安全运维区,实现场地360度无死角监控;配套出台了《长沙市公共数据产品开发利用安全管理办法》等制度规范,切实以“人防、技防、制度防”三防体系为公共数据开发利用保驾护航。

相关企业介绍

相关企业介绍

·长沙数字集团

长沙数字集团是2023年底新设组建的市管一级集团,注册资本金20亿,主营业务包括数字政府建设、数据要素运营、数字社会服务、数字生态营造。集团围绕2024年《长沙市政府工作报告》“发挥数字集团引领和统筹作用,打造数据要素大循环中部枢纽、新型智慧城市示范城市”的要求,坚持以释放数据要素价值为导向,链接物理空间和数字空间,实施“数字化、产品化、价值化”全链条布局,致力于实现赋能千行百业、服务千家万户,打造成为全国一流数字产业服务商的美好愿景。