来源:市场资讯
(来源:中国金融电脑)
作者
交通银行软件开发中心 吴志广 王一舟 汪涛
近年来,随着微服务架构在银行业的广泛应用,原本体量庞大、功能集中的业务系统被分解为多个专注于特定业务的独立模块,不仅系统灵活性得到显著提升,同时也大幅降低了功能扩展成本和变更风险。然而,在实现服务拆分后,一个业务功能通常需要更多的系统服务单元协作完成,传统监控工具在多服务、长链路交易场景下面临前所未有的效能瓶颈。针对上述挑战,交通银行设计分布式链路追踪方案并实施推广,实现对交易链路的全景可视化监控,为系统服务架构治理及架构资产保鲜提供了高效支撑。
一、分布式架构下的
监控难点与对策
在传统架构中,如果一个系统出现故障,通常可以通过查看日志、监控指标或直接访问该系统来快速定位和解决问题。但是,在微服务架构下,服务拆分导致系统服务数量显著增多,一个故障可能由多个服务的协作行为引起,这就要求运维团队需对服务请求的整体调用链路进行深入分析,不仅要能够识别引发故障的服务、追踪服务之间的调用关系,还需要同步检查中间件、网络延迟状态并分析日志信息,才能快速定位故障根因。此外,微服务集群的组成元素、依赖关系、流量分布、外部边界等还会随着各类事件发生动态变化,从而给运维团队实时掌握系统运行情况带来一定挑战。
针对上述转变,传统单一的监控工具或离散建设的监控平台已愈发难以满足多维度观测需求,商业银行急需构建集成化的可观测平台,通过聚合日志、指标等多源数据,建立从数据采集、智能分析到可视化呈现的全流程监控体系。其中,日志系统负责记录离散事件与进程细节,指标系统可持续量化系统运行状态,而分布式链路追踪技术作为关键突破点,则能够通过植入式探针自动捕获服务间调用关系,完整复现交易在跨系统、跨服务环境中的执行路径,并关联各节点的状态数据,最终形成动态可视化的数字孪生架构图。系统可观测性主要监控手段及其关系如图1所示。
尤其是对于交通银行等大型金融机构而言,面对高频迭代的微服务集群、错综复杂的交易链路以及动态扩展的系统规模,传统的静态拓扑图已失去在实时性、准确度等方面的参考价值,更需要通过分布式链路追踪技术构建端到端交易画像,从而实现对系统运行状态的全局透视与精准管控,为分布式架构提供强有力的运维支撑。
二、基于分布式链路追踪技术的
探索与实践
针对前述监控难点,交通银行围绕技术可靠性、兼容性、可扩展性及技术方向的行业成熟度,结合自身异构架构特点,自主设计了适配金融场景的分布式链路追踪方案。该方案不仅具备轻量化、低时延、业务无侵入等核心优势,而且还能够兼容行业通用追踪标准,既能灵活适配传统总线架构与微服务架构,也能全面支持云上、云下混合部署场景。
1.总体架构设计
分布式链路追踪方案在采用跨编程语言的通用追踪协议,为跨技术栈全链路追踪预留了充足扩展空间的同时,基于分层架构设计,有效保障了数据流转的高效性与稳定性。其中,数据采集层基于通用框架实现了无侵入式埋点,负责对链路数据进行全面采集;异步传输层基于异步化设计,可确保埋点数据传输效率不影响核心业务,从而有效降低总体上报时延;归集分析层主要负责完成链路数据的清洗加工、调用拓扑还原及多维度指标聚合分析;可视化展示层通过提供全链路可视化呈现、交互检索及智能告警等功能界面,可支撑运维人员进行高效操作。分布式链路追踪方案架构如图2所示。
2.埋点方式优化
在埋点方式的选择上,交通银行结合自身业务系统体量大、业务域覆盖广泛的实际现状,以金融级系统稳定性为核心原则,最终选择了通用框架作为自动埋点方案,同时确立“关键节点必埋、辅助节点可选、非必要节点不埋”的分级原则,以“精简高效、价值优先”为核心导向,优先覆盖了业务核心路径与架构关键节点。具体而言,将与业务运行直接相关的RPC及跨进程调用出入口作为链路追踪的首要锚点,实现全量覆盖埋点;对应用内部关键模块,根据实际需求进行选择性埋点;对健康检查、服务续约等非业务类调用避免埋点;对外部缓存访问等时延敏感场景审慎开展埋点,如遇到确需埋点的情形,则提前结合性能损耗情况进行量化评估。
3.方案落地要点
在实际接入过程中,交通银行将上述方案与现有研发工程化体系深度融合,以“自动化、无配置化”为核心目标,将埋点与应用的集成流程整合至统一研发流程中,最大限度减少了业务系统的代码修改与配置变更;同时,将标准化配置下沉至基础设施层,收敛非必要的定制化需求,实现对绝大多数业务系统的低干预快速接入。此外,为进一步控制埋点对业务系统的影响,交通银行在埋点阶段严格遵循三条隔离原则:一是数据隔离,确保埋点操作不对业务载荷数据产生任何干扰;二是逻辑隔离,保持埋点逻辑与应用业务逻辑相互独立、并行演进,严禁应用逻辑反向依赖埋点逻辑;三是错误隔离,防止埋点内部出现的错误传导至应用原有运行逻辑,保障业务系统稳定运行。
4.应用推广策略
在实践应用方面,交通银行采用了渐进式策略进行方案推广,即建设初期以低采样率、有限系统覆盖范围为基础,重点验证方案的可行性与数据质量;待方案运行趋于稳定后,结合各系统迭代能力与监控承载能力的提升,逐步扩大系统覆盖范围,提高采样率,并通过链路追踪实现对系统运行概况的全面监控;最终全面拓展系统覆盖范围并实现全量采样,为故障排查场景提供精准的个例问题溯源支撑能力。此外,交通银行将分布式链路追踪方案与全行统一监控体系深度整合,构建了交易端到端可视化监控能力,实现链路数据与交易指标、明细流水、运行日志的多源数据融合,不仅为全行应用监控与故障排查提供了关键支撑,还进一步形成了“指标预警—链路定位—日志溯源”的闭环故障处置能力。
三、分布式链路追踪方案
适用场景及价值梳理
在实际应用中,交通银行借助分布式链路追踪技术打造了覆盖各类系统调用关系与交互细节的全景监控能力,使开发、测试、运维及分析人员均可从各自关注的角度出发,随时观察交易在整个系统中的动态流转过程,并由此延伸出了多个维度的场景。分布式链路追踪方案的多维度价值如图3所示。
一是辅助系统动态架构分析。基于分布式链路追踪方案提供的实时交易数据,开发、测试及架构设计人员可对业务系统的动态逻辑架构进行深入洞察,并通过可视化监控视图及时掌握跨系统调用、跨应用调用以及数据库、缓存、消息队列等中间件的访问路径,并据此进一步开展系统架构分析。此外,结合交易链路视图所呈现的服务调用拓扑,架构设计和开发人员可快速识别服务间是否存在循环依赖、是否遵循微服务治理规范,并评估服务拆分粒度、内聚性与依赖合理性等问题,实现跨系统的架构分析。
二是支撑系统研发全流程管理。在需求分析阶段,基于链路监控中的服务拓扑和交易拓扑,分布式链路追踪方案可辅助分析人员快速掌握系统间的调用关系及上下游调用逻辑。此外,在开发与测试阶段,分布式链路追踪方案还可用于验证上下游交互行为与中间件使用是否符合预期,并在上线发布后通过链路回溯确认实际执行路径与设计方案的一致性,避免非预期影响扩散。
三是深化系统架构分析能力。基于分布式链路追踪方案,交通银行融合交易链路产生的实时动态数据与银行现有静态业务领域数据和系统资产信息,打造了面向服务、系统与业务的三层分析能力。在服务层级,通过展示服务接口间的调用链条,支持从业务功能角度理清服务实现路径,并辅助对服务架构展开精细分析;在系统层级,鉴于每个服务接口均归属于特定系统,故通过对系统维度进行聚合处理,清晰揭示了系统之间的调用关系,进而辅助系统级架构评审;在业务层级,结合业务域划分机制,通过将交易链路向上聚合形成业务领域的关联视图,能够为更高层次的企业架构分析提供依据。
四是实现部署架构感知。鉴于链路数据源自真实的生产环境,故分布式链路追踪方案所反映的调用路径同样映射了系统的实际部署形态,对部署架构分析具有重要的参考价值。例如,利用拓扑图中标注的服务所属集群与机房信息,可评估系统的高可用部署水平,而通过跨集群、跨机房的服务调用模式,能够判断当前部署是否满足灾备、双活等架构要求。
五是推动企业架构知识保鲜。面对同一业务功能存在多种执行路径的复杂情形,分布式链路追踪方案通过对各类执行路径数据进行聚合比对,可提供强大的差异化识别能力。该能力不仅有助于厘清交易的真实作用范围,也为开展系统演进规划设计与功能变更影响分析提供了有力支持。更为关键的是,分布式链路追踪方案建立了一套支持运行态与设计态数据对比的有效机制,能够及时发现实际系统与初始设计、当前状态与历史版本之间的偏差,真正实现技术知识的持续更新,助力企业技术资产的数字化积累与转型升级。
四、总结和展望
截至2025年底,分布式链路追踪方案已覆盖交通银行270套以上的物理系统,贯穿渠道层、服务层、核心层、支撑层等关键架构层级,每日生成的追踪埋点数据量达TB级,不仅成为开展系统分析与交易治理的关键技术手段之一,也为交通银行后续构建可观测性新范式奠定了坚实基础。
在架构治理辅助方面,分布式链路追踪方案通过实时采集交易执行路径中的跨系统调用、中间件交互等动态数据,构建覆盖服务层、系统层、业务层的三维架构视图,能够有效识别循环依赖、接口冗余、治理违规等架构隐患,并通过与静态设计文档的差异比对,实现对技术资产的动态保鲜与持续更新。
在效能提升方面,分布式链路追踪方案贯穿软件交付全生命周期,实现了全方位赋能:在需求分析阶段,通过使用历史链路拓扑厘清系统边界,可有效规避设计盲区;在开发测试阶段,可用于验证接口调用链路与中间件访问路径是否符合预期逻辑;在运维运营阶段,则成为实施系统监测、问题定位的核心工具,为问题处置提供了重要依据。
在智能化转型方面,分布式链路追踪方案不仅显著增强了业务可解释性,而且未来还可通过与人工智能大模型技术结合,进一步拓宽智能化应用边界:如通过大语言模型的深度语义理解与智能分析能力提升故障定位效率,并基于历史链路数据训练专业领域模型,打造故障预测与容量预警能力等,加速推动运维模式实现从被动响应向主动预防的战略转型。
展望未来,随着银行业务复杂度的持续攀升,分布式链路追踪方案也有望演进为新一代架构治理赋能工具,并通过与多维监控数据、系统资产数据的深度融合,推动可观测体系从“感知领域”向“决策领域”延伸,进而为金融数字化转型提供更为坚实的技术支撑和核心动力。
本文刊于《中国金融电脑》2026年第4期
特别提示
《中国金融电脑》杂志不收取作者版面费用,不会以所谓的“本刊代理/编辑部”或“发表定金”“手续费”等名义收取费用。购刊收款账户为对公账户,请勿对任何个人账户汇款。另,本刊开具发票不收取任何额外费用。如有异常,请作者立即与本刊编辑部查证核实,以免给自身造成风险或损失。
本刊编辑部联系方式:
010-51915111-816
投稿邮箱:
fcc@fcc.com.cn
市场合作:
010-51915111-813
010-51915111-812
010-51915111-826
热门跟贴