来源:2024年度全国农村金融机构科技创新优秀案例评选

获奖单位:安徽省联社

荣获奖项:运维管理创新优秀案例

一、项目背景


在数字化转型和金融创新的推动下,金融行业对业务连续性、系统稳定性和安全性的要求越来越高,尤其是对中小型农村金融机构的应用系统运维提出了更严格的标准。为了应对这一挑战,致力于提升数字化应用系统的监控能力,满足在复杂环境下业务运营的运维要求,安徽省联社前期在应用系统运维方面,已构建了基础资源监控、网络监控及基于网络旁路应用数据分析的应用监控体系。这些运维工具对保证系统的稳定性、安全性起到了重要作用。然而,随着业务复杂度和监管要求的提高,现有的监控体系在业务全链路的深度分析方面仍有不足。因此,进一步挖掘应用性能数据和提升数据使用价值,实现从用户的前端请求动作到应用系统处理全流程中的应用性能数据收集,完成从宏观全局视角到微观单笔业务视角,全面分析应用系统运行性能状态的目标。

安徽省联社金融信创全栈数字化监控能力建设解决方案旨在构建一套基于信创架构部署的全栈数字化应用性能分析和监控平台,通过对行内各类应用系统环境(包括信创平台在内的应用系统基础环境)进行端到端的全链路应用性能分析及监控,确保业务板块化管理,利用平台数据实现应用性能指标的实时分析、监控、提供运维决策支持,构建基于智能基线、故障定位的快速应急服务能力。方案通过部署探针、性能监控与数据可视化等技术手段,提升应用系统的实时监控效率及故障追踪能力,确保各类服务调用过程中异常节点和故障能够及时发现并为修复提供决策依据,助力运维工作向自动化、数字化方向转型。

二、项目方案


(一)方案概述

金融信创全栈数字化监控能力建设解决方案应用于各类应用系统环境,覆盖行内银行核心业务系统、综合前端、客户信息系统、加密平台、手机银行、网上银行、现代支付、企业服务总线、银行卡、综合收单平台、网上支付跨行清算、农信银、网联平台、信贷管理系统等27套业务系统,为保障业务系统稳定性,达到快速定位故障、缩短故障恢复时间,确保业务连续性提供了有效保障。同时,方案覆盖行内信创环境下的应用系统,有效补充了行内应用系统信创改造过程中原有监控覆盖能力不足的情况。通过方案的端到端全栈溯源技术构建运维数据架构,完成一纵一横全景监控,在纵向层面,实现业务层、应用层、基础架构层的全链路监控,可视化展示不同层级的性能指标,快速定位问题和瓶颈,提高问题解决效率。在横向层面,实现端到端全栈管理,包括用户端(手机银行APP端、网银浏览器端、综合收单APP等)、网络、服务端的监控分析,完成一键追踪、快速定位故障。本方案充分考虑行内应用系统建设,实现告警数据对接行内综合运维平台,满足信息化运维流程中的故障发现、故障分析、故障解决的闭环解决方案,满足运维管理的质量、效益和可持续发展要求。该解决方案基于国产化环境部署,适配鲲鹏CPU服务器、麒麟国产操作系统、东方通中间件;数据库基于国产化环境和开源数据库部署,适配达梦数据库、中兴GoldenDB和开源数据库,支持对业务系统的国产化硬件、国产化操作系统/数据库/中间件、业务应用的全监控覆盖,实现数据联动展现和联动分析。

(二)方案架构

该方案为行内构建了金融信创全栈数字化监控能力,通过分层架构设计,实现从数据采集到展示的闭环管理。利用全栈溯源技术,方案实现了对业务系统、基础设施、容器环境的全链路监控,确保系统实时监测和问题快速定位。方案覆盖多种国产软硬件,适配多环境,能够有效缩短故障恢复时间,确保业务连续性和系统稳定性,保障关键金融系统的高效运行。

打开网易新闻 查看精彩图片

·采集层:
该层通过部署探针,采集用户体验数据和应用性能数据。采集层适配物理设备、云平台、容器等环境,支持多种国产操作系统和硬件(如鲲鹏CPU、麒麟操作系统等),无缝监控核心业务系统、手机银行、网银、综合收单平台等各类系统。

·纵向监控层:
纵向监控覆盖业务层、应用层、基础架构层,自动生成应用拓扑,追踪交易路径和性能瓶颈。适用于行内主要业务系统,如银行核心系统、企业服务总线等,实现一键定位故障,提升问题解决效率。

·横向监控层:
横向监控从用户端(如手机银行APP端、网银浏览器端、综合收单APP等)到服务端,贯穿网络,实现端到端的全栈管理。通过溯源技术,完成一键故障追踪,快速定位涉及网络、应用和用户端问题,确保应用和交易请求的实时分析和监控。

·可视化层:
该层通过智慧大屏展示系统运行状态,实时监控服务质量与基础设施性能。全面展示监控的所有数据,助力运维人员实时掌握系统健康,提供可视化的直观决策支持。

此外,方案集成了多项关键功能,包括:异常检测,通过智能分析历史数据与当前指标偏差,及时识别潜在问题;智能报告,基于实时监控数据,定时生成详细报告帮助运维决策;根因分析,结合全链路监控和交易路径追踪,精准定位问题源头;全局拓扑,自动生成应用系统与基础设施的依赖关系视图,清晰展现系统架构;数据导出,支持监控数据的自定义导出,便于分析与备份,确保长期性能跟踪。

(三)业务场景

·信创业务迁移过程可靠性保障
信创业务迁移是一项复杂且高风险的工程,CPU、操作系统、数据库、中间件、云架构的异构,使得数据迁移及稳定性保障异常重要。迁移保障主要包含迁移方案制定、数据梳理、原业务环境可观测性、信创环境可观测性、业务切换、出具迁移报告等流程,保障信创迁移效果。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

·用户体验监控管理
通过全面记录用户从手机银行、网上银行等系统的端到端访问行为,深入分析交互体验和响应时间,精准识别用户在使用过程中遇到的瓶颈或延迟问题。结合交互数据,可以进行针对性的优化,提高系统响应速度,增强用户的满意度与粘性。同时,还可对特殊用户群体的使用行为进行深度分析,帮助优化业务设计和产品布局,确保系统服务体验达到最佳水平。

打开网易新闻 查看精彩图片

·全栈业务系统监控
覆盖包括银行核心系统、客户信息系统、网上银行、手机银行等27套关键业务系统,通过纵向监控架构实现从应用到基础架构的全链路监控。通过实时监控各个系统的运行状态,自动生成依赖关系视图,帮助快速定位业务系统中的问题点,实现一键故障定位功能,提升故障恢复速度,确保业务系统的持续高效运行,为业务的稳定性和连续性保驾护航。

打开网易新闻 查看精彩图片

·端到端性能监控与优化体系
针对省联社各类应用系统,实时采集性能数据,覆盖从用户端到后端数据库的全链路,支持对交易代码层面的精确分析。通过对性能数据的可视化展示,帮助运维团队快速识别性能瓶颈、交易异常等问题,并针对性进行优化。同时,通过OneTrace技术,实现与行内日志监控平台关联分析,在全链路定位问题时,可结合日志中详细的业务上下文信息,高效精准定位问题。

·系统全局依赖管理与拓扑可视化

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

自动生成全局拓扑视图,展示不同业务系统、组件和服务之间的依赖关系,提升运维团队的系统全局感知能力。通过这一可视化拓扑,运维人员可以更直观地理解系统各部分如何协同工作,特别是在复杂的业务场景中,系统间的关联更为清晰。当发生故障时,依赖管理能够帮助快速追溯问题源头,并评估其对其他业务的影响,从而快速恢复系统的正常运行。

·智能化运维管理与告警管理
根据业务特点,设置智能告警机制,自动化对接综合运维平台,实现对关键业务系统的快速响应与处理,确保业务稳定运行。

1)针对行内关键业务系统(如核心银行系统、网上银行、手机银行等)的特点,设立了系统化告警策略,结合业务特点设置监控指标,实时监控业务系统的运行状态,并在故障发生或潜在风险出现时,自动触发告警。以手机银行4.0为例,总结手机银行4.0系统的告警配置规则,后续按照规则来配置策略:

打开网易新闻 查看精彩图片

2)告警系统通过与行内综合运维平台的无缝对接,确保问题能够第一时间传达给相关运维人员。基于自动化的运维流程,减少了人为干预的复杂性,提升了整体管理效率,从而缩短了故障响应和修复时间。自动化的处理模式保障了系统的业务稳定性和高效运维,并通过系统化流程来降低运维风险。

综合运维平台接入告警:

打开网易新闻 查看精彩图片

告警工单流转:

打开网易新闻 查看精彩图片

·数据驱动的决策支持
通过整合全栈监控数据,行内运维人员借助智慧大屏及可视化报表,直观掌握系统状态,为应用系统性能优化与数字化发展提供强大的决策支持。

打开网易新闻 查看精彩图片

三、创新点


(一)全链路监控技术的创新

全链路监控技术通过对银行业务系统每个环节进行全面监测,确保从客户交易发起到后端处理的每一步都能实时追踪。这一技术特别适用于网上银行和手机银行等复杂业务场景,能够快速识别交易响应时间异常的具体服务或数据库查询,从而缩短故障恢复时间,提升系统稳定性。此外,该技术通过可视化监控界面,提供实时性能指标,帮助运维团队及时发现和解决问题,确保业务连续性,提升客户体验,增强客户对银行的信任度。

(二)运维数据集中平台的构建

运维数据整合来自不同业务系统的数据,提供统一的决策支持。通过实时数据采集和分析,银行能够从宏观和微观两个层面评估业务运行状态。运维数据集成化方式打破了信息孤岛,促进跨部门协作,使运维团队能够依据实时数据制定策略,快速调整资源配置,提升运营效率。这种数据驱动的管理方式有效增强了银行对市场变化的敏感度和反应能力。

(三)可视化监控与决策支持系统

可视化监控系统通过智慧大屏展示银行系统运行状态和服务质量,提升决策效率。集成多种数据展示方式,该系统能够实时监测关键指标,如交易处理量和响应时间。一旦出现异常,系统会自动推送告警信息,确保快速响应。可视化还支持历史数据对比,帮助银行识别趋势和潜在问题。这种直观的数据展示方式,不仅提升了运维团队的工作效率,也增强了运维人员对业务的掌控能力,有助于及时调整运营策略,提升客户满意度。

(四)智能告警与自动化运维

智能告警系统通过自动监测业务性能和分析历史数据,帮助银行迅速反应潜在问题。使得运维团队能够在问题发生之前识别风险,降低业务中断的可能性。系统能够实时监测关键指标,一旦发现异常,立即触发告警,指定相关责任人处理。此外,智能系统还能基于历史数据进行故障趋势预测,从而提前采取措施。通过智能告警与自动化运维,显著提升了系统的稳定性和安全性,为客户提供更可靠的金融服务。

(五)跨平台兼容性与国产化支持

项目的创新在于其对多种云环境和容器技术的适配,尤其是针对国产化软硬件的优化。使银行能够高效运营各类业务系统,满足日益增长的国产化需求。通过支持鲲鹏CPU、麒麟操作系统和东方通中间件等国产技术,银行不仅降低了对外部技术的依赖,还增强了数据安全性。跨平台兼容性使银行在云环境中迅速部署新服务,无需担忧系统间的兼容问题。

四、技术实现特点及优势


(一)技术实现特点

全面的调用链分析:项目实现了多维度的调用链分析,包括浏览器页面、APP异常、用户操作体验、应用事务代码、后台服务和SQL语句等,确保对业务系统的全面监控。

业务为主线的用户体验分析:通过关注真实用户访问业务系统的整体体验,项目能够掌握操作次数、成功率、错误次数等关键指标,提供对业务异常的根因分析,提升服务质量。

智能告警系统:基于时间序列预测算法,项目能够自动完成故障检测和告警,提供详细的警报信息,包括监控类型、严重程度和持续时间等,提升事件管理的效率。

全栈监控平台:采用统一平台,覆盖国产化硬件、操作系统、数据库和中间件,确保了全方位的监控和数据联动分析,增强了系统的适应性。

全链路追踪技术:基于oneTrace技术支持服务化的多视角全局拓扑展示,能够适应动态变化,有效追踪每个请求的交易号、用户ID等,提供性能指标的历史走势。

(二)技术优势

信创业务全栈监控:采用统一平台,完成对业务系统的国产化硬件、国产化操作系统/数据库/中间件、业务应用的全监控覆盖,实现了数据联动展现和联动分析。

提升业务连续性:全面的调用链分析确保潜在故障能够被快速识别和解决,保障业务系统的稳定性和连续性,提升整体运营效率。

数据驱动的决策支持:通过业务为主线的分析,项目能够为决策提供事实依据,优化资源配置,增强运营的灵活性和响应能力。

自动化的告警处理:与行内综合运维平台对接,实现了智能告警系统的自动化检测和根因分析降低了人工干预的需求,减少了故障响应时间,提高了运维管理的效率。

精准的故障分析:全链路追踪技术的实施,使得每个请求的性能指标都能被细致分析,提升了对故障原因的理解,有助于后续改进和优化服务。

五、项目过程管理


安徽省农村信用社联合社于2023年12月启动金融信创全栈数字化监控能力建设项目,计划于2024年10月完成项目验收。

1、2023年12月初成立项目组,并正式启动金融信创全栈数字化监控能力建设项目的实施。

2、2024年1月初至2月,项目组整理系统接入信息,应用系统网络架构,防火墙信息调研等。

4、2024年2月至3月,项目组完成了针对网银区、核心区的平台部署。

5、2024年3月至6月,项目组输出《监控上线流程》,针对27套关键业务系统分批进行监控,并对监测业务系统运行情况进行了跟踪分析,以验证是否运行稳定、可靠。

6、2024年7月,针对所监控的业务系统配置告警,对接综合运维平台,推送告警通知。完成可视化大屏展示、智能报告等。

7、2024年8月,系统投产运行,并对系统开发和运维的相关人员开展了培训。

六、运营情况


(一)项目推广应用情况

在项目推广应用方面,深入挖掘各个业务场景,与相关部门紧密合作,确保全栈数字化监控能力能够有效落地。通过开展培训和研讨会,增强各部门对新系统的理解和使用能力,确保各个业务线能够充分利用监控数据来提升运营效率。此外,我们针对特定业务需求,定制化开发监控指标,帮助团队快速识别和解决问题,提升了系统的应用价值。在实际应用中,聚焦于关键业务环节,如交易监控和客户体验分析,确保每个环节都能获得实时监控和反馈,进一步推动数据驱动的运营模式。

(二)系统运行情况

在系统运行方面,全栈数字化监控平台稳定运行,实时监测各类业务指标,确保银行核心系统的稳定性与连续性。系统的智能告警机制能够及时捕捉异常情况,运维团队迅速响应,降低了故障恢复时间。同时,数据分析能力使我们能够深度挖掘用户行为和业务性能,提供可视化报表,帮助运维人员做出基于数据的决策。通过持续的优化和迭代,系统不仅提高了监控效率,还增强了对业务变化的敏感性,支持了银行在数字化转型中的各项工作,助力实现更高水平的业务连续性和客户满意度。

七、项目成效


项目的成功实施为安徽省联社应用系统运维带来了显著的经济效益,并为数字化转型奠定了坚实基础。首先,全栈数字化监控能力的建立实现了对各类业务系统的全面监控,提升了运维效率,缩短了故障恢复时间,降低了因系统故障导致的业务中断损失,为应用系统的稳定运行提供了重要支持。

其次,项目通过智能告警和深度数据分析,确保快速定位和解决问题,显著降低了运维成本。在项目实施过程中,变更管理和巡检管理的时间缩短到秒级,进一步提升了运维工作的效率和质量,从而节省了人力资源并降低了整体运维支出。

此外,项目还应用了国产化技术,保障了数据安全与合规性,降低了潜在的安全风险。这种合规技术的应用在信息系统安全管理中发挥了不可替代的作用,增强了系统的安全性,满足了行内信创改造工作和安全工作的总体要求。

总的来说,该项目的成功推广和应用,不仅提高了安徽省联社的业务韧性和运营效率,还为行内相关技术的发展积累了更多经验,为运维数字化转型发展奠定了良好的基础。为行内科技未来发展提供了宝贵的经验和借鉴。

八、经验总结


在全栈数字化监控能力建设的探索与实践中,安徽省联社有效整合了运维数据,提升了监控与管理能力,深化了对业务系统的理解与应用,奠定了数据驱动业务连续性的基础。接下来,我们将继续推动监控体系的优化与升级,在数据层面上,将进一步丰富监控指标,提升对客户交易行为的全链路分析能力,确保能够实时掌握系统运行状态。在工具层面,我们将不断完善现有的监控与告警工具,以满足不同业务需求和技术环境的差异化发展需要。在流程层面,将实现运维流程的智能化和自动化,提升故障响应速度与处理效率。在业务层面,我们将力争实现对关键业务场景的全面覆盖,确保在复杂的金融环境中,业务稳定性和安全性始终得到保障。

更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。