来源:市场资讯
(来源:twt企业IT社区)
导读
在金融一体化监控建设项目中的运维监控集成及对接集成设计,基于项目目标如何梳理整合已有运维体系(如监控频率、指标覆盖范围)?本文来自两位同行分享。
分享一 / 叶骄龙 某股份制银行 系统工程师
基于项目目标,金融一体化监控项目主要是要梳理纵向和横向相结合的业务、应用、数据、基础设施各层的主要监控指标。
如业务系统的通用监控指标(系统可用性、业务交易量、业务响应时间、交易成功率/失败率/超时率等),到应用的通用指标(进程存活、服务端口状态、应用日志错误信息、JVM状态等),再到数据库的通用指标(数据库连接数、慢sql数量、表空间使用率、锁等待、连接状态、缓冲池命中率、QPS/TPS等),到中间件的监控指标(消息队列堆积、请求队列长度、连接池使用率等)。然后是基础设施的监控指标:如物理服务器的硬件监控指标(cpu、内存、硬盘、电源、风扇等部件故障监控),操作系统指标(cpu、内存、磁盘、swap、buffer/cache、信号量等使用率,ntp、rsyslog等服务状态),存储硬件监控指标(控制器、内存、硬盘、盘柜、电源、风扇、线缆等状态)和存储资源状态监控指标(存储池、内存、卷组、lun(san/nas)等使用率),交换机指标(端口流量、端口状态、端口crc报错数、交换机报错日志等)及其他基础设施通用或专用监控指标,这里不一一列举了,仅供参考。
要梳理监控指标,首先要把现有的监控指标先梳理出来,清单化管理,再根据项目目标,查漏补缺,确认是哪个层级缺失的指标,进行补充完善,逐渐构建出健壮的监控一体化平台。
专家补充:
王洋 某基金公司 系统架构师:这位老师的回答非常贴合实战,作为监控平台建设的参考,可以结合本地实际情况,从中选择适合自身企业情况的指标进行建设。
张帆 某银行 项目经理:回答的非常体系化,主要梳理了监控指标。这个话题我觉得也可以探讨的监控运营的指标,比如监控覆盖率、告警有效率、事件发现时长等等。
分享二 / 程宗憬 某城商行 系统工程师
在一体化监控建设项目中,对于中小银行而言,梳理现有运维状况应关注目标和现实困难,核心需要梳理的指标包括:基础设施(服务器、网络、存储)的监控覆盖率与代理部署情况、核心业务系统(如核心交易、网银、手机银行)的可用性与性能指标(如交易成功率、响应时间)、各专业监控工具(如Zabbix、天旦、应用性能管理)当前的采集频率和数据粒度、告警数量及误报率、以及现有配置管理数据库的准确性和关联关系。基于此,为整合已有运维体系并实现可落地的集成设计,关键在于充分结合现有系统进行梳理的策略:首先盘点并梳理所有现存监控工具的能力清单,明确哪些指标可直接通过接口对接复用,哪些监控频率需调整以支撑一体化视图;其次,以业务视角反向梳理指标覆盖盲区,优先补齐核心交易链路和重要节点的监控;最后,通过统一告警平台和标准化数据接口,将分散的监控数据汇聚,避免推倒重来,确保在有限预算和人员能力下实现运维体系的平稳整合与提升。
专家补充:
姚雅飞 某银行 系统架构师:回答主要描述了方法论,从技术角度看,梳理的基本思路正确,但是缺乏运维支持业务的目标梳理,毕竟运维最终服务于业务。
热门跟贴