来源:2024年度全国农村金融机构科技创新优秀案例评选

获奖单位:广东农信

荣获奖项:运维管理创新优秀案例、十大网络影响力优秀案例

一、项目背景

传统运维巡检通过采集系统当前运行数据来检查应用系统的状态,这种方式只能判断系统现在的健康状况,无法发现更深层次的应用系统运行隐患。同时随着广东农信监控告警体系不断优化,告警管理趋向完善,能够快速发现应用系统当前异常情况,逐步替代传统巡检工作内容。同时,近几年来,国家及行业监管一系列政策和标准,要求加强银行机构重要信息系统安全运行管理,积极运用大数据加强故障预警。

因此需要建立一套能多维度主动发现银行系统风险的工作机制与支撑体系,并且将巡检管理机制平台化,整合组织架构、巡检与协同流程、工具平台等多层视角。能够以应用系统运行数据为基础,结合应用系统运行规律和趋势,发现监控告警无法发现的异常,实现应用系统业务隐患的预警。

二、项目方案

智能巡检系统项目是智能分析减少人工判断,场景驱动实现深度巡检的思路。以应用系统运行数据作为基础,结合银行业务的运行规律和技术工作的活动特征定制巡检方案,深度。

一是建立立体化分层巡检指标系建设,构建出覆盖业务层、应用层、基础资源层的分层巡检指标;二是结合银行业务运行规律和系统变更维护窗口等特征,在交易高峰、重大变更维护等特殊时期,进行事前、事中、事后的全方位巡检。三是通过引入智能算法, 统计系统各类型监控指标的运行规律,模拟出指标的运行趋势曲线,进行趋势预测,及时发现指标曲线中不符合历史规律的异常点。同时,解决海量运行指标人工检查存在局限性的问题。

打开网易新闻 查看精彩图片

2.1智能运维工作台

智能运维工作台分为运维数据中台和场景建设,一是提供数据源底座将监控指标进行汇聚、清洗,输出标准化的监控指标作为巡检指标的数据源。二是作为运维人员巡检工作开展的管理平台,提供巡检风险情况展示窗口,将巡检结果通过风险项、任务卡的形式展示,系统负责人在工作台上对风险项进行查看、确认和调优。

2.2巡检管理中心

巡检管理中心,作为巡检任务下发模块,主要进行对巡检指标的配置,针对不同的巡检场景,如日常巡检、变更维护期间,不同场景下的不同指标,配置巡检算法和巡检规则。

2.3智能分析中心

智能分析中心,作为巡检的主要分析模块,通过引入智能算法,统计指标的运行规律,模拟指标的运行曲线,当指标数据出现异常点时,触发相应的巡检风险并将指标风险信息返回。

三、创新点

3.1 主动分析提前预警

传统巡检时通过巡检期间,对当前瞬时采集的系统运行指标进行排查判断,是生产系统运行情况的截面。智能巡检平台通过一段时间内的系统运行指标,模拟指标的运行曲线,并通过智能化风险感知手段及时发现系统隐患,并通过任务推送的方式,引导系统负责人主动分析和持续优化系统潜在风险点,提升系统日常运行的健康状态,有效支撑业务系统稳定运行。

打开网易新闻 查看精彩图片

3.2 连续性全天候检查

智能巡检平台能够解决传统巡检依赖人工排查分析的窘境,通过设置巡检指标、配置巡检规则、配置巡检场景等,通过后台自动任务和智能算法,将系统巡检结果推送到工作台进行展示,大大减少巡检人员的工作量。在每天开门前设置重要业务系统的保开门的巡检任务,保证上班前系统运行无风险,能够支持业务的正常交易。在开门营业后,设置每小时一次的系统日常巡检任务,观察系统运行指标的健康状况。在系统进行变更维护后,设置变更维护后的巡检任务,通过系统变更前后的运行指标比对,排查变更后系统是否存在异常状况。

打开网易新闻 查看精彩图片

3.3 立体化巡检分析

智能巡检平台,通过对各类数据综合分析,实现应用运行总览全貌。用专业化的视角,关注系统各项运行指标,业务服务的运行状况。通过集成丰富的系统运行数据,构建综合、全面的巡检体系,以报告、图表、任务卡片等形式,直观地呈现系统在多种视角下的运行健康状态和风险指数,提供更加立体的系统运行状态。

3.4 智能检测

传统人工巡检依赖人为经验,和实际情况可能存在较大的偏差,同时巡检指标指标成千上万,数量众多,为每个巡检指标都进行人工检查,成本极高。借助无监督学习的算法,在海量的巡检指标中分析出存在异常的指标。同时支持结合巡检人员的专业判断,在不断调优算法判断规则,不断优化巡检结果的准确性。

四、技术实现特点

4.1 对象和数据实时融合统一

项目与CMDB实现了资源对象和数据深度统一,所有资源关联关系数据均来自于CMDB。数据变化也将全量反哺到CMDB当中。采用开放式API方式与CMDB进行交互。在这种设计模式,实现了高度自动化并保持数据统一性。当巡检对象出现扩容、上线、新增等变化,对象信息取自CMDB,组件均支持自动化安装部署,用户通过图形化界面操作即可完成自动化部署过程;数据接入自动化,结合CMDB信息,自动检测待应用系统资源、自动检查部署条件、自动安装监控代理、自动化下发预设数据采集模板。

4.2 机器学习使用

通过机器学习对时序指标的大量历史数据进行模型训练,自动识别时序模式,并根据算法自动计算和输出准确性更高的阈值区间,最后通过异常检测(将时序指标的实时性能数据与预测出来的对应时间点的阈值作比较)来检测时序指标的当前性能数据是否存在异常,如存在异常,则根据比较结果(超出阈值区间的程度)生成相应低级别的预警。

4.3 分布式技术

采用大数据分布式架构及微服务架构设计,彼此间松耦合,支持根据负载动态弹性扩缩。巡检数据采用了水平切分的方式,每个维度使用一个独立的系统,保证了数据独立性和安全性。使用微服务框架建设,将各个模块划分成多种微服务,实现容器化部署。各个运维能力服务将自身运维能力以API形式向上开放,供各类应用场景调用。同时API服务也支持对外部用户及第三方系统开放,实现与外部运维能力快速融合,构建共享式运维体系。

五、项目过程管理

2023年6月开始项目实施,2024年1月完成系统正式投产上线,目前处于正常运行中。

第一阶段:完成智能巡检系统搭建;完成智能巡检系统核心功能建设;

第二阶段:完成对接应用系统的业务性能运行指标数据的接入;完成业务监控数据的检测及风险调优;

第三阶段:完成对接应用系统的基础资源运行指标数据的接入;完成基础监控数据的检测及风险调优;

第四阶段:开展系统运营管理。

六、运营情况

在投产运行至今,项目整体运行平稳。为运维管理引入智能巡检的能力,提供人机协同质检引擎、任务调度管理和分析报告等功能。当行内应用系统发生变更(例如应用服务、Web、中间件的启停、新版本发布或配置变更)或日常巡检时,智能巡检平台会执行完成巡检任务,基于指标数据进行变更质检或日常巡检分析,生成分析报告。

目前日均接入数据量在3000万条,指标量100万个,日均巡检发现隐患10余个,确保发现应用系统运行偏离正常形态时,提示潜在风险,以更早地发现和解决问题。

七、项目成效

项目成效1:变更专项巡检,发现变更后异常。

据统计,60%的生产故障由变更引入。在系统变更管控中,普遍存在变更协同操作管理缺失、变更风险难以主动防范、休市期变更检测易错差漏查、变更问题验证定位困难等变更风险管控的共性问题。通过本项目收集应用系统变更前后各层资源运行指标,通过算法比对,识别变更后的异常情况,并提出优化建议,帮助团队及时应对问题,从而降低潜在风险。

打开网易新闻 查看精彩图片

项目成效2:日常海量指标巡检,发现运行中细微变化。

智能巡检系统每天都会对100万个运行指标量进行多次的同比、环比、突变等维度进行分析。通过对海量数据的分析,感知每个指标的变化情况,帮助团队更全面、准确地评估应用系统目前的运行情况和风险,提供更可靠的决策支持,带来更高的预测准确性。

打开网易新闻 查看精彩图片

项目成效3:运维人员减少重复性工作,更多投入到结果分析。

巡检指标成千上万,数量众多,为每个巡检结果需要人工决策,成本极高。通过智能巡检系统免去了运维人员基于经验的惯性判断,极大节约的巡检判断指标的时间,减少了人力投入。对释放的人力资源则投入到对巡检的异常内容分析和关键指标趋势分析。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

八、经验总结

智能巡检系统解决了传统巡检的不足,围绕运维数据基础,以智能分析减少人工判断,场景驱动实现深度巡检为理念的新一代巡检平台。从物理硬件、基础资源、应用服务、业务交易实现立体化巡检分析,结合银行业务运行规律和技术活动特征,进行事前、事中、事后的全方位巡检,并引入智能算法,实现海量指标的分析和微观变化检查。

更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。