来源:鑫智奖·2025第六届金融机构数智化转型优秀案例评选

获奖单位:哈尔滨银行

荣获奖项:智能运维优秀案例奖

一、项目背景及目标

2025年作为《金融科技发展规划(2022-2025年)》收官之年,我国金融业数智化转型进入全面深化、系统推进的关键阶段。2024年11月,中国人民银行等七部门联合印发《推动数字金融高质量发展行动方案》,明确以数字化转型为战略引擎,提出到2027年建成"数字金融强国"的路线图,强调数据要素与算法算力对金融服务模式的重构作用。在此背景下,数据要素市场化配置改革深化,以DeepSeek为代表的大语言模型等人工智能技术迅猛发展,推动金融服务底层逻辑重构,数字金融向"数智化"质变升级。

本城商行面临传统运维体系在监控告警、作业调度、科技服务等方面效率低下、人工依赖度高、响应不及时等问题,难以适应数智化转型需求,亟需借助AI技术重构智能运维体系

二、创新点

1.AI大模型深度融合业务场景

将DeepSeek等大语言模型创新性应用于运维各环节,如在科技服务台场景,实现知识库信息自动检索与工单自动分配,改变传统人工检索与分配模式,提升服务效率与精准度。

2.全流程智能化覆盖

实现从事件发现(监控告警、作业调度事件)到处置、服务台支持(知识库检索、工单分配)、数据分析(性能趋势、报表统计)及员工培训的全流程智能化,形成闭环管理,打破传统运维各环节割裂状态。

3.动态优化与自主学习

建立模型优化与升级机制,基于实时数据反馈,不断优化AI模型,使其适应业务变化与数据特征,提升智能化水平的持续性与有效性。

三、项目技术方案

1.实践场景-监控告警事件智能化发现与处置

1.1实施流程

模型支持解析监控数据,实现告警分级与优先级排序。Zabbix报警信息通过DeepSeek模型与RAG向量库中的处置文档结合加持,值机工程师将告警信息发送至AI引擎,自动生成根因分析报告及处置建议。例如,针对“Windows磁盘空间不足”告警,模型不仅定位到具体文件路径,还提供清理脚本和扩容建议,显著缩短MTTR(平均修复时间)。

1.2实施结果

检测准确率:从人工检测的误报率明显下降。

处置效率:紧急告警处置率提升较大,平均处置与重要告警工单处理时间显著缩短。

人工成本:监控岗位人力成本投入减少,运维团队可将更多精力投入系统优化。

2.实践场景-作业调度事件智能化发现与处置

2.1实施流程

模型支持解析故障处置手册,显著提升了需作业调度操作的事件流程从发现-处置-反馈执行结果的时间。各系统基础信息及脚本通过DeepSeek模型与RAG向量库中的处置文档结合的加持,值机工程师将问题简要发送至AI引擎,自动生成根因分析报告及处置建议。例如,针对“系统批量报错”在特殊日期是如何处置等内容回答,模型不仅定位到具体文件路径,还提供处置脚本和相关应用与研发工程师的联系方式建议,显著缩短MTTR(平均修复时间)。

3.实践场景-科技服务台知识库信息自动检索测试

3.1实施流程

知识库清洗与结构化:梳理导入历史万条服务记录,清洗整合分散在多个系统中的知识库文档(含服务台基础业务需求操作手册、常见问题解答、故障案例、业务各类需求文档文件模板整理等),使用NLP技术提取关键词、实体关系,构建包含标准问答的结构化知识库。

智能检索模型开发:基于DeepSeek大模型构建语义检索引擎,支持关键词检索、语义模糊检索(如服务台同事输入“业务数据调取”可匹配“本司人员信息变更”“网络故障维护”等相关问题),并结合用户历史提问记录进行个性化推荐。

接口集成与测试:将检索引擎嵌入工单系统开展多轮灰度测试,累计处理400+模拟工单处置提问,通过此项工作可迭代优化检索算法(如调整TF-IDF权重、增加上下文关联度计算)。

用户交互优化:对复杂问题(如涉及多系统联动的故障),大模型添加角色关键字可自动生成“问题拆解员”,引导用户补充关键信息(如报错代码、操作步骤),提升答案匹配精度。

3.2实施结果

响应速度:平均检索响应时间从人工检索的2-5分钟缩短至4.2秒,90%的简单问题(如密码重置、系统登录网址)实现“秒级响应”。

答案准确率:标准问题匹配准确率达93%,复杂问题引导解决率提升至85%,服务台人工介入率下降40%。

用户满意度:服务台工单处理满意度从72%提升至88%,一线客服人均每日处理问题量从30单增至50单。

4.实践场景-协助科技服务台分配工单测试

4.1实施流程

1.工单数据标签化:对历史工单数据进行标注,提取业务领域(网络/服务器/应用)、问题类型(故障/咨询/需求)、影响范围(个人/部门/全行)等10+标签,同时为本部门运维人员建立标签库(含所属组、所关联系统、个人信息等)。

2.分配模型训练:使用DeepSeek大模型构建工单-人员匹配模型,输入工单内容、用户等级(普通员工/管理岗)、紧急程度等特征,输出最优处理人(支持1对1、1对多回答),通过模拟分配测试优化匹配策略(如优先回答给30天内同类问题解决率>90%的工程师)。

性能趋势分析测试

3.多源数据整合:接入系统性能指标(CPU/内存/磁盘IO)、业务交易数据(交易量、响应时间)、外部数据(如高峰时段用户访问量),通过数据中台建立统一性能数据集,涵盖多个核心系统的各类性能指标。

4.特征工程与模型训练:使用时间序列分解算法(STL)提取周期性特征(如日终/月末峰值),结合LSTM神经网络构建性能预测模型,支持72小时趋势预测,重点关注交易响应时间>250ms、吞吐量下降>20%等临界指标。

5.可视化与协助预警机制:通过BI工具生成动态性能趋势图,当预测到某核心系统(如支付清算系统)未来2小时吞吐量将突破阈值。

4.2实施结果

预测精度:关键性能指标(如交易响应时间)预测误差率有所控制,在8%以内,提前24小时识别系统瓶颈的准确率达85%。容量规划工作基于趋势分析结果,通过不断优化可把在跑批时资源调节到“安全”阈值范围。

5.实践场景-专业报表统计分析测试

5.1实施流程

报表需求梳理:整合运维、科技、业务、合规等部门的报表需求(如《日度系统可用性报告》《故障分类统计报表》),标准化报表指标定义(如可用性=正常运行时间/总时间×100%),建立报表模板知识库。

智能分析与生成:使用DeepSeek大模型解析报表业务逻辑,自动完成数据聚合(如按部门、故障类型分组统计)、趋势分析(同比/环比计算),并生成可视化图表(柱状图/折线图/热力图),支持中文自然语言描述报表结论(如“本月网络故障占比35%,较上月上升10%,主要原因为XX交换机固件升级失败”)。

后续计划开展自动化数据pipeline:开发数据采集机器人(RPA)定时抽取核心业务系统(CMDB、监控平台、工单系统)数据,通过AI模型自动清洗异常值(如工单处理时间>24小时的极端数据),数据清洗将大大提高。

6.实践场景-新员工培训测试

6.1实施流程

1.培训场景建模:梳理运维岗位核心能力矩阵(含监控报警分析、故障发现处置、应急流程操作3大维度与多项技能),基于历史故障案例(如数据库死锁、业务系统紧急处置标准化文档)构建多个个虚拟培训场景,每个场景包含事件背景描述、报错处置情形考试、后台记录反馈机制。

2.智能培训系统开发:使用开源引擎搭建虚拟运维角色+DeepSeek大模型作为“智能导师”,支持文字交互(如学员提问“如何排查服务器无法连接问题”,系统自动引导排查步骤:ping测试→查看防火墙→检查网络配置),并根据学员操作路径生成个性化能力评估报告。

四、项目过程管理

实施步骤:

1.数据准备

采集并清洗历史工单、监控日志、业务运行日报等数据,构建训练数据集。

2.模型训练与部署

在私有环境中对AI模型进行本地化训练,集成Rag引擎与多智能体框架。

3.场景试点与扩展

先在科技服务台、核心交易系统数据进行测试切入点,验证后逐步扩展至全行业务系统数据。

4.风险管理

通过标准化文档脱敏、局域网访问权限控制保障数据安全,建立“人工审核+自动校验”机制确保模型输出可控,保留传统运维通道应对异常。采用“联邦学习+同态加密”技术,确保训练数据不出行,符合《个人信息保护法》要求;引入SHAP值分析工具,对AI生成的故障根因解释覆盖率达80%,满足监管“可审计”要求。

五、运营情况

1.系统运行稳定性

①项目自上线以来,核心业务系统稳定运行率达99.98%,日均处理监控告警事件超2000条,作业调度事件处置率达100%,未发生因AI模型输出异常导致的生产事故。

②通过AI引擎动态跟踪模型性能指标(如响应时间、准确率),每周通过各类《智能运维系统数据报告》,累计优化模型参数12次,确保系统持续可靠运行。

2.日常运维机制

①采用“AI初判+人工复核”双轨制:简单故障(如磁盘空间不足、密码重置)由AI提供标准化处置方法,复杂故障(如多系统联动异常)触发操作提示流程,人工复核平均耗时缩短至15分钟。

②构建“数据-模型-场景”闭环优化体系:每月收集一线运维人员反馈的多条优化建议,结合生产数据迭代训练模型,已新增支持多类细分故障场景的分析与标准化处置意见(关键系统异常重启信号灯、网络链路中断执行切换备线操作)。

3.用户反馈与迭代

①后续计划面向全行建立“智能运维体验官”机制,累计收集业务部门反馈问题,优化科技服务台交互界面、工单分配逻辑等功能点,加强用户操作便捷性。

②定期开展跨部门联合复盘会,针对极端场景(如月末批量交易高峰)优化AI资源调度策略,确保系统在峰值负载下仍保持低延迟响应(平均交易响应时间<200ms)。

六、项目成效

1.效率提升

①监控与处置效率:紧急告警平均处置时间缩短20%,重要告警工单处理时长减少25%;性能趋势分析可提前24小时识别系统瓶颈,准确率达80%,容量规划效率提升0%。

②服务台效能:科技服务台人工咨询介入率下降40%,90%的简单问题实现“秒级响应”回复。

③培训效率:新员工培训周期从4周缩短至2周,通过标准化处置知识库场景完成80%的实操考核,降低培训成本。

2.成本降低

①人力成本:值机监控岗位与科技服务岗位同事重复性工作导致的人力成本降低。

②运维资源优化:通过AI驱动的性能数据趋势分析,调整服务器资源分配,有效提高资源利用率。

3.质量与体验提升

①故障处理精度:监控告警人工误判率下降50%,根因分析准确率从60%提升至82%,复杂故障引导解决率达85%,服务台工单处理满意度从72%提升至88%。

②行业示范价值

项目成果符合《推动数字金融高质量发展行动方案》导向,验证了AI大模型在金融运维场景的可行性,为行业提供可复用的技术路径与实施框架,预计可带动同类机构运维效率平均提升20%以上。

七、经验总结

1.技术适配性:选择国产化开源模型(Deepseek)降低技术壁垒,结合银行特有数据训练提升场景贴合度;

2.组织协同机制:成立“科技+业务”联合专项小组,累计优化流程节点28个,需求响应效率提升50%;

3.技术能力转型:开展“AI运维工程师”认证培训的学习工作。

7.1挑战与应对

1.数据质量瓶颈:建立“数据质量评分机制”,对数据及标准化文档的质量有较高要求,需要实时更新优化;

2.国产化迁移压力:后续将采用“双轨制”迁移策略,计划业务系统与AI模块并行运行较长时间,需确保业务零中断;

7.2未来展望

1.技术演进:2025年Q4试点“AI视觉+传感器数据”融合的智能巡检,探索多模态大模型在设备运维中的应用;

2.场景延伸:将连接更多科技赋能的工具,为我行提高工作效率,为业务同事解决繁复工作提供解决方法;

3.标准共建:为行业的《商业银行智能运维技术规范》出一份力,推动金融业AI应用标准化的顺利开展。

更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。