0 引言

在“建设具有中国特色国际领先的能源互联网企业”战略目标指导下,国家电网有限公司大力推进电力物联网建设,对内促进质效提升,对外支撑融通发展[1,2,3,4]。营销数据与客户互动性最强,但由于内外部数据整合不充分,数据支撑能力不足,无法输出具备电力特色的数据分析产品与服务[5,6,7]。数据共享应用平台定位于为各专业、各单位提供数据共享和分析应用服务,根据数据共享和分析应用的需求,沉淀共性数据服务能力,通过数据服务满足横向跨专业间、纵向不同层级间的数据共享、分析挖掘和融通需求。因此,推动数据共享应用平台设计研究,具有重要的现实意义[8,9,10,11,12,13,14]。

数据对外共享需求主要体现在几个方面:一是政府需求,各级政府通过获取有效电力数据价值,支撑政府市场运行监管、制定产业发展政策、优化社会资源配置、市场风险防控、扶贫政策精准投放[15,16,17,18];二是企业需求,企业利用电力数据的分析挖掘,有效识别风险,实施贷后及投资风险防控,挖掘节能需求,实施精准营销服务[19,20,21];三是居民用户需求,提供缴费提示及差异化服务,提升能效,改善因重过载、线路老化影响居民正常用电的问题[22,23,24]。

现将不同平台数据进行集成处理,提出数据共享应用平台的架构设计,以实现把业务系统数据同步到数据缓冲区,缓解源端系统访问压力并提升数据分析速度,同时解决运营内容管理工作较为分散的问题,以及融合“网上国网”APP、微信公众号、支付宝生活号等渠道数据,支撑“网上国网”数据共享发布、监测预警、数据分析、数据应用,实现数据的融合贯通和集中管理。

1 电力营销数据共享应用平台战略意义

电力营销数据共享应用平台定位于为不同领域、不同单位提供数据分析和共享应用服务,是一种战略性业务架构,以数据规划、数据获取、数据治理、数据分析、数据应用和价值变现为一体的数据服务体系为内容,以实现数据资产价值的最大化为目标,通过数据服务满足横向跨专业间、纵向跨不同层级间的数据共享、价值挖掘、分析应用和融通需求。数据共享应用平台聚焦“业务数据化”,践行“数据业务化”,将所有业务的全量信息都以数据的形式存储,通过数据实现对业务的度量、分析和改进。核心是记录所有商业活动,指导精细化运营。“数据业务化”是通过对数据的分析、利用,实现对业务的赋能。核心是连接不同商业数据,支撑赋能创新。数据共享应用平台旨在通过提供数据产品,面向内外部服务赋能对象,提供不同的服务形式与内容,实现对外服务与对内赋能。数据产品通过提炼服务领域相对通用功能,与内外部合作伙伴合作,持续研发适用于多样化服务场景的成熟产品,初期场景主要涵盖社会共享领域。

2 数据共享应用平台总体架构

2.1 系统总体架构

电力营销数据共享应用平台是以企业多类型大数据量的汇聚为基础,以统一数据模型为标准,通过丰富的数据标签,为前端应用提供敏捷的统一数据服务。数据共享应用平台系统总体架构如图1所示,其中包括数据源、数据存储计算平台、主要应用功能等三大部分。数据共享应用平台是企业坚实的数据服务框架,为前端应用层提供高效数据服务支持。电力营销数据共享应用平台可实现互联网客户服务渠道数据汇聚和交互共享、数据开发及统一分析。

数据源包括内部数据和外部数据,其中内部数据包括营销业务应用系统、用电信息采集系统、营销稽查系统二期等系统业务数据及日志数据。外部数据包括气候环境、产业经济、房价等数据。

数据存储计算平台的贴源层将内部数据和外部数据几乎无处理地导入,贴源层数据模型设计主要依据源业务系统数据模型,结构化数据以源业务系统数据库表结构为准,非结构化数据转换为结构化数据,同时存储源文件。通过共享层实现数据统一,基于业务板块、业务过程、分析维度、明细数据、共享数据构建,规划分为共享层和萃取层,贴源层基于SG-CIM4.0模型分域存储清洗整合后的明细数据,共享层依据贴源层数据生成存储原子指标、派生指标、维度表、事实表、宽表等汇总数据。通过萃取层存放数据产品个性化的统计数据,根据共享层与贴源层加工生成,对于不是特别通用的统计维度数据会放在这一层中,以重度汇总数据、统计指标、标签数据为架构,按客户、渠道、行业等主题域方式构建。

主要应用功能主要包括支撑用户行为、运营活动、工单交费等场景的统计分析服务;支撑“网上国网”运营指标统计场景的指标查询服务;支撑运营支撑平台等业务应用场景的业务数据查询服务;支撑活动实时监控等场景的实时数据服务等。主要应用功能将支持现有对外数据服务,提高数据的兼容能力,数据标准化能力,提供标准的数据服务API,持续对外提供数据分析能力。

2.2 数据共享应用平台内外网交互及部署方式

数据共享应用平台内外网交互如图2所示,纵向级联,内外网穿透,实现互联网客户服务渠道数据汇聚和交互共享、数据开发及统一分析。统筹考虑电力公司本地渠道建设情况,支撑全渠道客户服务体系建设,实现皖事通、省电力公司微信公众号及支付宝生活号、其他生态渠道等多渠道用户统一认证、服务统一接入、运营统一开展,即实现“联业务、联服务、联数据、联生态”。

电力系统安全事关国家战略,通过内外网强隔离装置进行安全防护,保证数据穿透的安全性。微信公众号、支付宝生活号等外部生态渠道的部分数据,按需存入ES数据库供数据共享应用平台抽取,并对数据进行轻度分析。通过逻辑穿透,将计算结果存入信息内网数据库中,进行进一步的加工,然后展示。大部分外部生态渠道数据、内部渠道数据,均通过信息内网进行数据接入和存储,并按需同步到信息外网ES数据库。

共享应用平台分内外网部署,外网部署了Kafka、Redis等组件,其中Redis接收用户消息,存储一些热点数据,Kafka提供消息服务。将用户行为数据、运营活动数据、缴费数据、用电数据等全渠道业务数据在数据共享应用平台进行融合汇聚,为数据分析提供原始数据。以全渠道数据为基础,对数据进行清洗、加工、计算,完成运营指标分域、基础指标库、指标模型管理、指标服务目录功能建设,为运营支撑平台的指标、报表等提供数据,为其行为分析、业务分析等提供数据支撑。

3 主要应用功能

电力营销业务的快速发展对数据共享应用提出更高的要求,需要不断提升数据管理水平、提高数据服务能力、减小获取数据异常、减小获取数据复杂度等,需要开展具备数据管理、数据分析支撑等功能的数据共享应用平台相关应用建设。电力营销数据共享应用平台主要功能如图3所示。

1)数据提取。

根据具体的需求,支持原有JDBC、OGG、ETL、Web Service、物化视图、储存过程等方式对外提供数据服务。从业务系统、外部数据源采集过来的最原始数据,保留所有业务的特征信息。打通各业务系统的数据链路,解决数据获取的问题,并保证数出同源,屏蔽多源数据的差异,减少数据加工对业务系统的影响。

2)API定制服务。

提供数据服务API的快速生成和对外数据服务,还支持通过可视化配置的向导模式快速生成数据API,用户无需具备编码能力,可以在分钟级配置数据API。支持自定义SQL的脚本模式,允许用户自行编写API的查询SQL,并支持多表关联、复杂查询条件以及聚合函数等能力。营销基础数据平台、用电信息采集平台原先对外服务数据,从数据共享应用平台按照原先的数据服务方式对外服务,原先的数据使用系统改造较少。后续新接入的数据服务将按照API方式对外提供数据服务,通过API管理做到数据共享可配、可查、可控。开放了哪些API、谁在调用、调用了多少次、有没有错误等都能很直观准确地展现。

3)任务管理。

任务管理包括任务配置、任务调度、任务监控等功能。在数据处理过程中的每一步,无论是存储、查询还是统计分析都是分布式计算,而数据共享应用平台在同一个时刻运行的任务数量是庞大的。这些数量庞大的任务需要进行统一的管理和追踪,数据共享应用平台主要提供对任务执行情况的查询、待执行任务的安排、执行中任务的终止和暂停等工作。

4)数据开发功能。

数据开发是数据共享应用平台的核心功能,包括数据同步、数据脱敏等功能,支撑数据接入、数据存储计算、数据服务功能等平台功能的开发,对数据共享应用平台起到引擎作用。

5)数据管理功能。

对客户档案、电量电费等数据的数据属性、表结构、描述及使用进行基础数据管理;对风控分析模型、渠道分析模型等数据模型进行算法模型管理;对微信公众号、营销业务应用等系统的数据、服务、组件进行数据资产管理;对运营数据、微信公众号数据等各类业务进行数据质量管理。

6)数据分析支撑。

内网侧数据共享应用平台接入微信公众号、支付宝生活号、渠道协同管理平台的业务数据,以及营销业务应用系统的客户档案、电量电费数据,以及微信公众号、支付宝生活号等系统的埋点数据。用以支撑运营支撑平台用户分析、运营活动分析等主题场景分析,以及支撑渠道协同管理平台的工单、交费等业务处理场景分析。

4 关键技术研究

4.1 整体技术方案

包括数据集成、数据计算存储和统一数据服务。其中,数据集成提供不同技术路线、不同频度、不同类型的数据归集能力,主要支撑“网上国网”数据交互、运营平台和客户服务业务中台业务应用、客户行为数据分析、实时热点数据访问、大数据主题分析等。数据计算存储支撑离线数据和实时数据的计算和存储。离线计算主要应用于省侧业务系统数据接入、运营主题计算等场景。实时计算主要应用于埋点日志实时计算、预警监控等实时交互场景。统一数据服务是数据共享应用平台的统一数据访问入口,包括统一服务引擎、数据服务目录和服务网关,主要应用于用户指标、工单、交费数据查询等场景。

4.2 数据集成方式

数据共享应用平台的数据集成方式分为实时接入和离线接入,分别作出不同的技术设计。实时数据接入采用OGG技术,通过OGG for bigdata工具将数据实时接入到Kafka,数据共享平台通过Flink X将数据实时接入数据分析服务器。离线数据接入采用Flink X工具,直接从Oracle数据库和文件服务器抽取数据到数据分析服务器。数据共享应用平台通过提供不同技术路线(ETL、OGG、Flink、Flume、Kafka)、不同频度(实时、准实时、离线)、不同类型(结构化、非结构化)的数据归集能力。

4.3 数据存储与计算

数据存储与计算支撑离线数据和实时数据的计算和存储。其中离线计算主要为用户提供针对TB/PB级别数据的、实时性要求不高的批量处理能力;实时计算主要应对海量数据进行高性能的实时数据采集处理,主要应用于埋点日志实时计算等实时交互场景。

数据接入之后,主要存储在数据共享平台数仓的HDFS文件系统内,数据共享平台数仓分成3层,最下面一层为原始数据层,用来存储接入的不做任何处理的原始数据;中间一层为细节数据层,用来存储对原始数据清洗加工后的细节数据;最上面的汇总数据层,用来存储分析汇总后的数据。不同数据层有着不同的数据生命周期,一般来说原始数据层作为数据备份层,有最长的生命周期,其他层次的生命周期由下往上依次递减。

在数据进入数据共享平台ODS层的数据缓冲区后,针对全量同步的数据会对数据进行统一的数据类型转换处理,再存入数据服务区的每日全量数据分区。数据进入数据共享平台ODS层的数据服务区后,CDM层会从ODS层的数据服务区获取维度和实时数据,经过转换后按照新的数据模型分别存入DIM维度表和DWD明细事实表。基于公共汇总指标的需求、CDM层的DIM维度数据和DWD明细实时数据,加工生成汇总统计数据存储DWS汇总事实表。ADS层的数据一般优先来源于CDM通用数据模型层数据,但对于一些特殊应用的个性化数据需求或复杂数据需求,可直接从ODS层的数据服务层取数据加工后生成ADS层直接面向业务的数据。

4.4 统一数据服务

将统一数据服务作为数据共享应用平台的统一数据访问入口,设计主要功能包括服务配置、注册、发布、申请、管理、调用统计等。兼容现有的数据服务形式,如OGG、JDBC等,能够提供统一的标准化的API数据服务形式,满足对外部系统提供数据分析的需求。

支持通过可视化配置的向导模式快速生成数据API,用户无需具备编码能力,可以在分钟级配置数据API。通过调用限流和API调用安全加密,保证统一数据服务API调用的安全可靠。

统一数据主要包括对内赋能和对外服务,其中,对内赋能包括支撑用户行为、运营活动、工单交费等场景的统计分析服务;支撑“网上国网”运营指标统计场景的指标查询服务;支撑运营支撑平台等业务应用场景的业务数据查询服务;支撑活动实时监控等场景的实时数据服务。对外服务包括住房空置率分析、电力信用分等典型大数据应用产品,对内赋能电力营业厅整合优化等产品。

5 应用场景

数据共享应用平台的典型应用包括住房空置率分析和居民电力信用分产品。基于数据共享应用平台,分别为数据接入区、数据处理与应用区、数据对外服务区。将用电信息采集系统中用户日用电数据进行计算,首先数据通过ETL方式从数据接入区的营销数据、用电信息采集数据、外部数据源将数据加载到数据处理与应用区。在数据处理与应用区中通过建立挖掘模型与维度模型进行数据计算,并最终加工成电力信用分与住房空置率应用,同时以API方式对外提供数据服务,实现电力数据融合的社会化共享赋能服务。

5.1 住房空置率分析

数据共享应用平台典型的应用之一是住房空置率分析,住房空置率是指某一时刻空置用户数量占总用户数量的比率。国家电网经营区居民用户普遍实施“一户(宅)一表”计量,经用电信息采集系统统计用电量,通过大数据分析的方法,估算出居民住房空置率。主要将用户分为住房空置户、工作日闲置户、季节闲置户、迁徙留守户4类,进而计算空置率,并通过住房空置率热力图的形式进行展示。以年为统计区间,得出地区住房空置率变化趋势,并将住房空置率用地图的形式与房价进行同步展示。

项目利用数据共享应用平台获取用户日冻结电量、电表详情、计量点详情、用户档案相关数据,以及房价等经济数据来自各地市统计局与第三方数据库,或外部爬虫。通过数据共享应用平台Spark计算、引擎计算将模型计算得到的用户空置明细数据写入到Hive表中,并接入营销稽查系统,将空置率与房价进行联合展示,整体开发完成后,以API的形式进行共享。住房空置率的计算是电力营销重要的对外数据服务,将反映市场对房屋的需求趋势,既是对过去投资情况的反映,也可以指导现在的投资按投资理论开展,使政府更直观感受城市空置率分布情况,为开展城市布局、宏观调控、精准投资提供参考,提升电网对外服务水平。

5.2 电力信用分

数据共享应用平台另一典型的应用是电力信用分,它以电力数据源为核心起点,基于大数据分析技术构建电力信用评价体系,可为政府、金融机构、企业等提供一种电力行业特色信用评价服务。将客户划分为高压、低压非居与低压居民三组,从客户信用行为能力和信用行为意愿两个角度,综合考虑用户基础属性信息、用户缴费行为等业务数据的特点,构建客户信用评价模型。首先对模型通过专家经验、AHP层次分析法等运算结果输出用户信用评分、信用等级和信用分数计算明细,利用主成分分析法对指标间进行去相关性计算,再运用熵值法对各项指标进行赋权,最后加权计算获得最终的客户综合信用评价结果。再将用户信用评分设置为5个不同的信用等级区间,需输出每个用户的信用分数计算明细,形成电力信用报告。

数据共享应用平台首先通过ETL方式从数据接入区将数据加载到数据处理与应用区,在数据处理与应用区中通过建立挖掘模型与维度模型进行结果数据的计算并最终加工成电力信用分,同时以提供API方式对外提供数据服务,实现电力数据共享赋能服务。