来源:鑫智奖·2024第五届金融机构数智化转型优秀案例评选

获奖单位:新疆银行

荣获奖项:智能运维优秀案例奖

一、项目背景及目标

随着我行业务的快速发展,信息科技建设的能力和要求日益提高,但运维自动化水平偏低,仍停留在人工运维层面,主动预警能力不足,缺少平台和工具的支撑,问题定位不准确影响生产业务恢复。现阶段我行正处于数字化转型过程中,在系统运维层面迫切需要通过建设一套一体化智能运维管理平台来帮助运维同事进行故障定位与诊断,实现对流程、工具、组织、人员的一体化管控,进而提升运维效率,降低成本。

本项目的建设目标如下:

一是加强监控管理,提升问题发现能力

通过采购更加先进的基础监控工具,完成对服务器、操作系统、数据库、中间件、存储和网络设备的监控,同时满足信创监控的要求,需具备云原生监控能力,具备与第三方云平台集成监控数据的能力。

通过日志方式实现对应用系统的监控,并能通过交易链路定位应用服务故障节点。

完善监控工具,扫除监控死角,做到不漏报,少误报,及时发现和解决问题,提高系统的稳定性、可靠性、连续性。

二是集中日志管理,提升故障排查效率

将系统每天产生的分散在各个服务器或者设备的不同位置的大量日志数据进行集中的管理,实现跨日志、跨服务器、跨应用的日志查询,提升故障排查时的定位效率。通过日志指标化实现对应用系统的监控,通过日志串联快速定位业务交易故障节点;通过日志关键字告警弥补指标化监控的不足,提升问题发现能力。

三是集中告警管理,提升运维分析处置能力

实现多源告警集中一体化管理,统一告警工作台实现对告警的集中管理,对告警发生规律分析、告警的过滤压缩,告警的关联分析,相似告警知识复用;以诊断为目标的告警360度分析,告警协作跟踪以及复盘分析等。通过对告警的全方位分析,以达到识别有效告警、故障快速发现、故障快速定位的目标。

四是通过建设CMDB配置管理,提高运维效率和质量

当前我行的业务、应用服务、网络设备、服务器、数据库、中间件、硬件设备、存储设备以及应用系统部署关系、网络链路拓扑关系,大多保存在excel表格里,日常维护word文档中。

希望通过配置信息的准确性(如责任人、归属业务系统,资源配置信息等),配置关系的准确性(网络连接物理拓扑关系、业务应用拓扑关系),准确支撑健康分析、告警关联、故障排查等运维场景。

五是加强IT服务管理,提升运维质量并降低系统运行风险

建设灵活、高效的运维流程管理工具,包括服务请求、事件、问题、变更、发布等标准化服务流程,以有效推动执行,降低线上系统运行风险。

通过标准化,规范化日常IT服务管理工具,帮助IT部门提高服务质量、降低成本和风险、提高人员能力、增强透明度。

对事件、问题、变更、知识等进行数据统计、分析,输出相关分析结果,通过对服务质量、服务效率、服务成本等方面的度量,从而更好地帮助我行优化IT服务的管理流程。

六是建设运维自动化平台,提升效率减少误操作

利用灵活的自动化引擎,通过低代码流程编排建立自动化运维管理能力,将人工的运维任务转变为自动化作业,从而提高运维效率,规范操作规程,降低误操作风险。

七是夯实运维数据治理,推动向数据驱动运维转型

实现多源数据的接入、处理、分析、存储,接入告警、指标、日志、链路、CMDB等数据,通过运维对象建模、指标建模、资产建模、数据建模,实现标准化、规范化的运维数据治理,如丰富、转换、清洗、脱敏、聚合计算等,为运维运营落地场景提供支持。运维数据管理需提供流处理数据服务和批处理数据服务、以及可扩展的算法服务。经过数据封装,提升各运维场景灵活调用的“数据服务”能力。

八是务实智能化运维,场景化建设提升运维工作效率

在数据同步治理过程中,逐步加强运维场景化分析能力,如告警算法标签规律识别,告警等级推荐、告警关联分析、告警根因定位、应用健康度预警、应用一体化健康分析,多系统快速排障分析,故障发生后应急排障定位以及业务经营分析等场景。将来还可以实现性能预测、容量预测、故障预测以及成本分析等。

二、创新点

2.1全量数据互通

为保障我行业务的连续性,我行的一体化智能运维平台包括基础监控、应用监控、配置管理CMDB、运维流程ITSM、自动化平台、集中日志管理、集中告警管理等多个模块。会产生的配置项及关系数据、性能指标数据、告警数据、各种组件的日志数据、流程工单和自动化执行记录等,这些数据量大,类多,且存储的不同的介质。但运维人员的日常运维保障工作需要整合各个系统模块的数据以支持事件发现、事件分析、故障诊断、故障恢复、故障恢复确认等。这些运维场景需要实现系统的互连,而数据互通是基础。利用运维数据中台的资源建模、指标建模、数据建模、数据集中接入、数据集中处理、数据集中存储等功能,利用批流一体化的数据处理能力,同时保障数据质量,通过共享数据服务,将相关经过编排好的数据服务于各个运维场景。

打开网易新闻 查看精彩图片

2.2全域系统联动

由于运维数据中台底坐能力实现了数据互通。我行打造了运维操作层面的全域联动能力。从集中告警平台OA平台自动或自动触发事件工单;事件工单可手工触发并关联问题工单和变更工单;问题工单可跨项目管理平台系统触发建立需求工单;变更工单可关联CMDB配置项及自动化任务,通过手工触发自动化任务实现相关恢复动作,如主备系统切换、批量进程启停等;在变更工单上可触发配置项自动采集能力从而实现配置项的自动更新。

打开网易新闻 查看精彩图片

2.3交易故障定位

制定应用日志规范,通过系统全局流水号,系统系统调用上下游关系的内部流水号,以及对应用系统、应用服务、交易码业务的建模,从页实现交易链路的自动生成,体现系统间调用关系、服务调用关系。如手机银行转账交易链路监控、微信/支付宝充值/提现交易链路监控。通过交易链路上的应用服务节点的异常状态、交易指标监控以及下钻应用服务日志明细,从而对横向的应用服务调用故障定位起到辅助作用。

打开网易新闻 查看精彩图片

2.4监控应界定界

将应用系统纵向拓扑链路数据(业务、应用、服务器、数据库、中间件、网络设备、存储设备的配置项及关系)、交易明细数据、交易指标数据、应用监控数据、基础监控数据、日志数据、配置数据、变更数据进行整合,先形成一体化的数据模型,利用运维数据中台资源建模能力、流批数据处理能力、数据存储、服务服务能力,为运维管理人员、业务运维人员、系统运维人员提供“一张图”,提升部门协作效率,从而实现快速故障应急定界的目标。内容上包括应用架构总览视图、交易指标实时分析视图、交易指标厍分析视图。

打开网易新闻 查看精彩图片

2.5告警根因定位

将同一个问题所引发的多个相关联的告警合并生成一个关联的场景进行展集中展示,可通过过手动关联、智能关联和专家经验关系形成相关联的告警场景。通过对告警列表内容的分析,告警传播拓扑的分析、告警传播时序的分析,基于故障场景模型和智能算法推荐出可能的故障根因。

如下图,物理机故障导致其上运行的多个数据库云实例状态异常,由于共用基础设施导致多应用异常,算法推荐出异常故障节点。

打开网易新闻 查看精彩图片

2.6提前智能预警

传统固定阈值告警需专家根据系统运行情况,总结经验手工设置,会存在偏差。且随着时间演进业务变化、系统环境支持能力下降等因素的影响,为保障告警的准确性需人工持续性调整。出现告警漏报、误报情况无可避免了。通过智能化算法对历史数据规律进行学习,告警阀值随系统运行时段动态变化(早中晚忙时闲时),并配合固定域值底线,避免漏报和误报情况的发生。本期项目我行采用了指标异常检测和性能预测两类智能化分析方法,提升了系统的预警能力,也提升了告警的准确性和及时性。由于智能化手段的应用,解放了人工设置告警阀值的烦恼,节省了成本、提升了运维工作效率。

2.7增效降本容错

通过自动化原子任务、工作流和任务调度,自动化模块能够快速响应和处理大量日常重复性操作,如服务器巡检、软件部署、配置变更、故障恢复等,大大减少了人工干预,缩短了运维周期,提升了工作效率。自动化模块通过预设的最佳实践和标准化流程执行任务,显著降低了因人为因素导致的操作失误率,提高了运维的准确性和稳定性。

三、项目技术方案

3.1在技术架构方面

技术架构采用分层设计,采用高内聚低耦合的方式,主体分为四层架构,按照数据流向依次采集层、处理层、应用层、展示层。

整个技术架构的设计支持起以底层统一的数据采集为利器,以运维大数据平台和配置管理CMDB为底坐,以基础监控、集中告警、ITSM运维流程、自动化平台为日常运维操作的抓手,以交易故障定位、监控应急定界、告警根因定位、智能预警分析等故障发现、故障定界与诊断、故障紧急恢复、故障复盘知识沉淀为主线的整体规划。

打开网易新闻 查看精彩图片

(1)从多种数据源进行数据采集,包括日志文件类型数据源采集、API类型数据源采集、数据类型数据源采集、Kafka topic类型数据源、SYSLOG等协议类型数据源采集等。

(2)数据通讯层使用Kafka与Zookeeper集群进行承载,分别部署可动态扩容的多个节点组成高可用集群,承载能力与性能均有所保,同时支持不小于10万的资源纳管能力,不小于10PB的数据存储能力。

(3)管理、数据双通道。采集端与服务端的通讯分为:管理通道以及数据通道。

(4)使用Kafka及Rest API对外扩展和传输数据,扩展性和通用性好;前后端分离设计、核心组件微服务化、逻辑组件松耦合;无单点故障、可横向扩展。系统中每个节点都支持多节点部署,节点之间无共享状态,都可以根据系统的设计性能要求,按需横向扩展。

(5)数据存储在ES和Clickhouse存储集群中,针对不同的数据类型选择存储介质。数据的整体压缩率较好,全量数据分析和预聚合都支持较好,响应时间通常情况下在毫秒级,数据处理规模可以轻松达到每天TB的量级。

(6)在数据服务方面,通过kafka对外提供实时消费,支持基于kafka SCRUM和ACL对消费进行授权管理。通过HTTP接口可对外提供批量数据消费。多样的数据服务模式为监控管理、告警管理、日志管理、ITSM、CMDB、自动化平台等工具平台,以及异常检测、容量预测、监控应急定界、告警根因分析等细化场景,提供细化和综合的数据服务。

(7)系统集成采用OAuth2.0简化的、灵活的、安全的授权流程,使得应用程序可以安全地访问用户资源,同时保护用户和数据的隐私和安全。

3.2在功能架构方面

加强基础监控的管理能力,实现对常见操作系统、硬件设备、动环设备、存储设备、网络设备、数据库、中间件、消息对象、大数据平台以及云平台的采集监控。

通过实现ITSM、CMDB、自动化平台工具建设,满足我行自己运维流程标准、自动处理标准化、配置管理标准化能力的规范化需求。

将采集到的监控告警数据、监控指标数据、日志数据、ITSM工单、配置数据、自动化任务及结果数据同步到运维数据中台,通过中台的对象建模、关系建模、指标体系、流批一体的数据计算能力、数据质量、算法能力等,为上层的告警管理、应用监控、交易日志串联、指标异常检测、容量趋势预测、监控应急排障分析等场景提供数据支撑。

在统一门户管理层,实现可视化大屏、运维门户、移动端处置、分析报表等数字化分析及便捷处置等能力。

打开网易新闻 查看精彩图片

四、项目成效

4.1经济效益分析

降低运维成本:通过建设一体化智能运维管理平台,整合监控、日志、告警等功能,减少人工巡检和故障排查时间,降低人力成本,同时通过自动化运维和智能化分析,减少无效工单和重复性工作,节省运维开支。

提高运维效率:通过全面监控和集中化管理手段,确保问题能够及时发现、快速定位和有效解决,显著提升运维响应速度和问题解决效率。自动化运维平台确保运维任务高效执行,大幅提高运维工作效率。

提高业务连续性:通过强化全方位、多层次的监控体系,保证系统稳定性和连续性,及时预防和处理可能导致业务中断的风险点。T服务管理的标准化和规范化,能够降低系统运行风险,确保业务服务的高可用性和连续性。通过智能化运维场景的建设,可提前预测和规避潜在问题,最大程度上保证业务连续性不受影响,减少因故障停机造成的业务损失,间接增加业务收入。

4.2社会效益分析

智能运维项目的成功建设和实施将产生深远的社会效益,不仅对我行自身的长期发展具有重要意义,同时也将在提升行业地位、履行社会责任等方面发挥积极作用。

将极大地提升我行的信息技术服务水平,确保业务系统的稳定运行,减少因系统故障引发的客户投诉,提升客户对我行服务的满意度和忠诚度,从而有力地维护和提升我行的品牌形象与市场竞争力。

通过一体化智能的运维管理模式,能够提前预知和规避各种潜在风险,有效应对网络安全威胁、业务连续性挑战等问题,符合金融行业严格的监管要求,确保我行在安全合规的前提下稳健发展。

将为我行的业务创新和技术升级提供坚实的基础,使我行能够快速适应市场变化,推出更多高效便捷的金融服务产品,拓宽服务渠道,满足不同客户群体的需求,从而促进业务规模的增长。

项目实施后,运维人员的工作效率将得到显著提升,可从从繁琐的手动操作中解脱出来,专注于更高层次的技术研究和创新能力培养,进而提升我行整体的人才队伍素质和组织运营效率。

更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。