来源:鑫智奖·2025第六届金融机构数智化转型优秀案例评选

获奖单位:中信建投证券

荣获奖项:智能运维优秀案例奖

一、项目背景及目标

在数字化转型的推动下,公司的财富管理业务,面临三大核心挑战:一是数据安全与隐私保护,需在极端场景下实现数据“零泄露”;二是业务连续性保障,要求核心系统具备分钟级故障切换能力;三是信创架构转型,需适配国产分布式技术栈并保障系统兼容性。基金投顾系统作为公司的核心交易系统,业务涉及个人客户和机构客户,需要持续保障业务的连续性、数据的安全性及系统的稳定性。

因此,以构建“业务可恢复、数据不丢失、合规有保障、客户能信任”的灾备体系为核心目标,启动了基金投顾系统信创改造&异地灾备多活建设项目。项目旨在通过双中心协同、全链路信创改造,实现如下目标:

1)高可用架构:基于IDC与SET分组机制,确保灾备系统的高可用,业务无缝切换;

2)数据强一致性:通过分布式存储与异步复制技术,满足监管要求的数据强一致性;

3)全栈信创适配:全栈适配国产芯片、操作系统及中间件,构建安全可控的技术底座;

4)系统多活可用:提高系统的可用性和容错能力,确保系统在部分故障时,服务仍能持续运行。

项目的实施将助力中信建投证券提升系统韧性、满足合规要求,并为行业信创灾备体系建设提供可复制的实践范式,推动证券行业数字化转型迈向新高度。

二、创新点

基金投顾系统的信创改造&异地灾备多活建设中,核心突破了六个方面的问题。

1.全栈信创部署:实现了全栈的信创部署

系统基于全栈信创技术路线,适配支持华为鲲鹏ARM、浪潮飞腾ARM,国产银河麒麟操作系统、欧拉操作系统,万里GreatDB数据库、腾讯TDSQL数据库,宝兰德BWS,打造自主安全可控的金融服务系统。2.实现“就近优先、智能调度”,提高系统响应效率

系统以“就近优先、智能调度”为核心理念,融合IDC分组与SET分组两大核心策略,实现了从物理架构到业务逻辑的多层次流量治理。其中,IDC分组机制通过对物理机房(IDC)内服务实例进行逻辑划分,确保服务调用优先发生在同机房节点,从而有效降低网络延迟,提升调用效率;而SET分组机制则基于业务维度或用户分片进行精细化流量控制,不仅增强了系统的可扩展性和容灾能力,也为后续的灰度发布、故障隔离等场景提供了有力支撑。

在此基础上,系统进一步通过智能调度算法与多级级联路由机制,实现对调用链路的动态优化。当本地资源不可达时,系统能够自动切换至备用机房或全局最优节点,既保障了服务的高可用性,又最大限度地维持了响应速度。

3.数据同步优化,显著提升数据一致性与系统可用性

在文件数据层面,系统采用共享 NAS 存储架构,实现多数据中心之间的文件实时同步与共享访问,确保各节点对共享数据的访问始终保持一致状态,极大增强了系统的容灾能力和业务连续性保障水平。

在结构化数据管理方面,系统依托 GreatDB 数据库复制技术,构建起高效可靠的异步复制通道,实现了跨地域数据中心之间关键业务数据的准实时同步。该复制机制在保障主从数据库高性能运行的同时,具备断点续传、冲突检测与自动恢复等智能能力,有效应对网络波动、节点故障等异常场景,从而在不牺牲性能的前提下,显著提升数据一致性与系统可用性。

4.系统实现了快速灾备切换

全面提升了微服务在面对机房级、区域级故障时的自愈效率与稳定性保障。通过构建“多层次容灾架构 +实时健康监测+智能路由调度”的三位一体灾备体系,系统能够在异常发生时迅速识别故障节点,并自动将业务流量切换至可用节点或备用机房,实现对用户无感知的服务连续性保障。

5.基于大模型技术在故障定位、根因分析与应急响应中的深度应用,实现了运维效率和问题处置能力的显著跃升。通过引入基于AI的大模型智能分析引擎,运维平台能够对监控日志、调用链数据、性能指标及异常事件进行多维度语义理解和模式挖掘,从“被动响应”向“主动洞察”转变。该引擎可自动识别异常波动趋势,快速关联上下游服务影响路径,精准定位潜在故障点,并输出问题诊断邮件,大幅缩短传统人工排查所需时间。

6.实现了高速读取的分布式缓存Dcache,该缓存系统专为高并发场景设计,具备高吞吐、低延迟、强扩展、易维护等核心优势,全面提升了基金投顾系统的数据读取效率与服务能力。

三、项目技术方案

基金投顾系统灾备多活建设采用了北京+上海两个机房进行部署。

1.系统采用四层架构设计方案

涵盖表现层、接入层、业务层和数据层,旨在保障系统的高效及稳定运行。下图展示了各层之间的关系

打开网易新闻 查看精彩图片

表现层:该层是生产和测试业务的入口。主要任务是处理基金投顾系统和用户间的交互,提升用户体验。

接入层:该层通过宝兰德BWS等流量管理工具实现智能路由与策略控制,根据业务需求将流量引导至相应机房,确保负载均衡与高可用性。

业务层:该层是整个系统的核心,主要包含用户服务、三方文件接口服务、致胜代理服务、订单服务、拆单计算服务、风控服务、对账服务、模拟柜台服务、邮件告警服务等多个关键模块,各服务间解耦清晰、协同高效,支持复杂业务逻辑的灵活扩展与快速响应。

数据层:该层由GreatDB与DCache组成,其中GreatDB负责存储策略组合、用户及订单等核心数据,DCache则用于缓存高频读写数据,提升访问效率。通过该分层架构,系统在保证高性能的同时,具备良好的可维护性、扩展性与容灾能力,满足基金投顾业务对稳定性与实时性的高标准要求。

2.系统的多活部署方案

下图展示了日常情况下,基金投顾系统灾备多活的架构。在日常情况下,北京+上海两地的微服务均正常启动,保障系统的多活运行。当微服务节点发生异常时,系统能够迅速识别故障节点,并自动将业务流量切换至可用节点或备用机房,实现对用户无感知的服务连续性保障。

打开网易新闻 查看精彩图片

3.信创国产化解决方案

基金投顾系统基于全栈信创技术路线,适配支持华为鲲鹏ARM、浪潮飞腾ARM,国产银河麒麟操作系统、欧拉操作系统,万里GreatDB数据库、腾讯TDSQL数据库,宝兰德BWS,打造自主安全可控的信创改造方案。

4.系统监控预警一体化解决方案

系统基于TAF框架,实现了实时监控系统的性能数据,如CPU利用率、内存使用情况和请求响应时间。这些数据可视化呈现在仪表板上,帮助团队直观了解系统运行状况。同时,通过告警规则设置,可以在性能达到预设阈值时进行实时通知,以帮助团队采取预防措施,减少潜在风险。

5.数据同步多活解决方案

在文件数据层面,系统采用共享 NAS 存储架构,实现多个数据中心之间的文件实时同步与共享访问。该架构确保各节点在任意时间点对共享数据的访问保持一致性,显著提升了系统的容灾能力与业务连续性保障水平,为关键业务场景提供稳定可靠的数据支撑。在结构化数据管理方面,系统基于 GreatDB 数据库复制技术,构建了高效、稳定的异步复制通道,实现跨地域数据中心之间关键业务数据的准实时同步。

四、项目过程管理

基金投顾系统信创改造&异地灾备建设实践分为以下四个阶段进行实施,具体实施过程如下:

1.信创改造阶段

2023年8月--2024年02月,完成系统各渠道前后端的微服务信创化的功能开发、功能、性能测试及部署。

2.冷备基础建设阶段

2024年03月--2024年05月,完成系统功能的开发、测试、部署。

1)完成灾备环境-前端微服务冷备的开发、测试、部署;

2)完成灾备环境-后端-OTC渠道微服务、Dcache服务的开发、测试、部署;

3)完成灾备环境-后端-京东渠道-微服务冷备开发、测试、部署。

3.节点扩容建设阶段

2024年06月--2024年08月,完成功能开发、测试,及节点扩容部署。

灾备环境-OTC渠道务微服务功能开发、测试,及节点扩容部署;

灾备环境-京东渠道的业务微服务功能开发、测试,及节点扩容部署。

6.4多活升级阶段

2024年09月--2024年12月,经过微服务多活的功能开发、完备的功能、性能测试,及多活部署。

1)OTC渠道和京东渠道的前端微服务多活功能开发、测试及部署;

2)OTC渠道和京东渠道的后端文件交互、拆单、订单处理等相关微服务多活功能开发、测试及部署。

五、运营情况

1)基金投顾系统异地灾备多活上线以来,已实现连续6个月无故障稳定运行,系统可用率达99.99%,全面通过生产环境验证。这标志着系统已突破初期磨合阶段,核心指标持续达标,验证了架构设计的合理性,系统正式进入成熟运营阶段。

2)系统异地灾备多活部署以来,扩展灾备机房服务器16台,高效承载64项业务&技术迭代需求上线、支持了123个策略组合的管理及运行,新客户接入零中断,累计新增新签约客户超8000次。

3)系统已承载15.6万存量客户,覆盖中信建投全部营业部,并深度对接京东金融、蚂蚁财富、中正达广等9大合作渠道,具备高并发处理能力,单日处理交易指令超3.15万笔,订单响应成功率100%。

六、项目成效

基金投顾系统异地灾备多活的建设,保障了系统的持续稳定运行。在经济效益上,2024年基金投顾业务年底保有规模17.66亿元,同比增长66.92%。灾备多活建设严格遵循金融行业监管要求,确保了业务的连续性和数据的安全性。

在社会效益方面:灾备多活系统保障了15.6万客户的交易安全,降低了交易风险,增强了投资者对市场的信心。通过支持基金投顾业务的连续性,系统促进了中信建投财富管理业务的稳定发展。灾备多活建设的成功实践为行业提供了可复制的共享方案,推动了整个金融行业的数字化转型和灾备体系建设。

系统在技术上实现了全栈的信创技术部署:平台基于全栈信创技术路线,适配支持华为鲲鹏ARM、浪潮飞腾ARM,国产银河麒麟操作系统、欧拉操作系统,万里GreatDB数据库、腾讯TDSQL数据库,宝兰德BWS,打造自主安全可控的金融服务系统。

系统灾备切换效率高:通过多次公司级异地灾备演练,基金投顾业务整体系统切换时间小于15分钟,完全满足非实时交易系统的灾备切换要求。

系统性能提升:通过异地灾备多活建设,全面压测了基金投顾系统在不同负载和典型场景下的性能表现。这不仅有助于及时识别和解决性能问题,还提高了系统的可靠性。通过压力测试实践,系统核心接口最大瓶颈可支持2000并发/12000TPS的请求。

七、经验总结

基于信创改造&异地灾备多活建设的基金投顾系统在稳定性能力提升方面取得了许多创新性经验:

实现了全栈信创技术应用。采用全栈信创技术,包括国产芯片技术和自主软件技术,构建了安全可控的金融核心计算能力。

通过“机房级就近访问+业务级智能分流”的分层治理,系统在保障高可用的同时,实现资源利用率与用户体验的双重优化,为复杂分布式架构下的流量管控提供了解决方案。

通过“文件实时共享+数据库准实时复制”双引擎驱动,系统在保障高性能运行的同时,实现跨地域数据强一致,为业务连续性提供坚实保障。

灾备多活体系构建起从故障预警到流量调度的完整闭环,使微服务架构在灾难场景下实现“检测-决策-恢复”全流程自动化,为用户提供无感知的高可用服务保障。

基于大模型技术的智能运维应用,显著提升了故障定位、根因分析和应急响应效率。系统引入AI大模型分析引擎,能够对监控日志、调用链、性能指标和异常事件进行多维语义理解与模式识别,可自动识别异常,快速关联影响路径,精准定位故障点,并自动生成诊断报告,大幅缩短人工排查时间。

实现了高速读取的分布式缓存Dcache,该缓存系统专为高并发场景设计,具备高吞吐、低延迟、强扩展、易维护等核心优势,全面提升了基金投顾系统的数据读取效率与服务能力。

更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。