某大型服饰集团成立于90年代,是广受认可的国民生活时尚品牌,近年来随着集团公司业务规模的不断扩大,信息化作为支撑集团公司业务发展的重要技术手段,信息系统无论在规模上还是在复杂程度上均有了很大程度的增加。

打开网易新闻 查看精彩图片

项目现状

当前信息系统庞大规模与复杂的结构,为数字中心的运维管理能力带来极大挑战。由于数字中心还是以分散的工具化产品、结合手工为主的运维模式,导致目前运维工作多是局部的、分散的,各项运维工作之间缺乏联动,没有形成整体的运维管理体系。

设备类型:交换机、防火墙、负载均衡、AC、无线AP、上网行为管理等。

设备品牌:华为、华三、思科、锐捷、戴尔、飞塔、F5、网康、深信服、优特普、极进extreme、iKuai、博科brocade、山石网科、Radware、TP-LINK等

设备数量:2500台

项目期望

面对运维现状,数据中心期望有一整套完整的监控运维平台,实现对整个集团公司的IT基础设施进行全面、集中管理。有效地从根本上解决运维工作中存在的基础资源台账管理不统一、数据不准确,监控手段有限、系统故障发现不及时,问题定位难、解决慢等突出问题。

  • IT设备分布在多个城市的不同园区,急需解决网络架构、设备间链接关系无法可视化呈现的难题,清晰定位设备节点位置;
  • 现有设备类型繁多,且随着信息化的建设,设备类型和数量在不断增长,更需要一款可扩展、可兼容不断变化的设备的监控运维产品;
  • 实时监测网络流量,尤其是每个园区与互联网连接的出口流量;
  • 运维人员长期处于“救火”状态,出现问题往往耗时耗力地需要从头排查,极易造成服务性能下降或业务停机时间偏长;
  • 改善依靠部分运维管理工具和人工日常巡检相结合的管理方式,释放因IT资产增加而逐渐增大的运维压力;
  • 提升对网络资源实际使用情况的实时感知能力,减少因性能瓶颈造成的业务缓慢、死机等被动响应的情况;
  • 实现对业务系统从基础硬件到上层服务的体系化监控,定位业务异常根因。

智和信通方案

考虑到用户复杂的网络场景,智和信通确定采用分布式部署的方案进行平台部署,在每个园区分别部署一台采集服务器采集本园区内设备的各类性能、故障信息;在IDC机房部署智和网管平台进行全量集中管理。

跨地域多园区网络集中管理、可视化展示

通过智能发现技术,将跨地域多园区中的IT设备自动发现出来,并以图形化、具象化的拓扑形式展现设备间的联动关系与实时状态信息,帮助运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。

打开网易新闻 查看精彩图片

多品牌型号设备统一纳管、差异监控

在拓扑图的基础上,进一步展示设备的细节,将用户网络内不同类型、不同品牌、不同型号的设备统一纳管,并根据用户需求差异化配置监控指标,指标包括但不限于以下内容。

  • 交换机:状态、响应时间、运行时间、电源状态、CPU使用率、内存使用率、网口状态、接收/发送流量、发送/丢包率、接收/发送带宽使用率等;
  • 防火墙:响应时间、CPU使用率、内存使用率、温度网口状态、接收/发送流量、发送/丢包率、接收/发送带宽使用率等;
  • 无线AC:状态、响应时间、运行时间、电源状态、CPU使用率、内存使用率、网口状态、接收/发送流量、发送/丢包率、接收/发送带宽使用率、AP指标等;
  • 无线AP:状态、响应时间、IP地址、设备名称、接口数量、内存大小、SSID、接收/发送流量、接收/发送带宽、射频传输重传帧比率、射频传输错误帧比率、射频传输总帧数、关联的站点总数、关联失败的站点总数、当前连接用户数、当前断开连接用户数、成功验证的用户的在线时间等;
  • 负载均衡:状态、响应时间、运行时间、CPU使用率、内存使用率等;
  • 行为管理:状态、响应时间、cpu使用率、内存使用率、硬盘使用率、活跃用户数、上线用户数、高速缓存状态、日志中心服务状态

统一告警管理和故障自愈

方案通过统一的故障中心,将各个模块中的监控信息统一采集、分析,实现整个网络中各种事件信息、设备故障、业务异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过站内消息、邮件、钉钉的方式实时传达告警信息,保证落实到指定人员进行处理。

与此同时,结合平台的运维编排功能,通过拖拽编排的形式将用户对常规告警的处置方式转化为依托平台的自定义工作流,在发生告警时,自动触发处置流程,从而实现故障自愈。

IT设备全自动化巡检

结合用户真实的巡检工作要求,自定义配置巡检策略,细化巡检范围,自动执行巡检操作,并将巡检结果通过邮件的形式推送给任务负责人,实现对设备的定期检查。

设备异常trap和syslog转告警

接收设备主动发送的各类事件与日志消息,集中存储、解析处理后,将错误、告警、攻击行为等异常信息转化为告警,及时地通知用户进行处置。通过统一界面集中管理事件与日志,提高其完整性和可追溯性,帮助用户快速定位问题并采取相应的解决措施。

运营业务拨测与分析

通过构建业务分析模型,将集团内部的供应链系统、邮件系统、物流系统、直播分析系统、OA系统等纳入平台进行拨测分析。部署可视化业务拓扑,将业务相关的基础设施和应用可视化显示并有效量化,将其状态映射到他们所支持的业务上,直观反映IT基础设施的动态变化对业务造成的影响和威胁。

出口流量透视分析

将出口设备纳入流量透视平台,通过sFlow协议从设备、接口、IP、服务、应用、会话、协议层级进行实时监测与回溯分析识别带宽消耗较大的应用程序、服务、协议或 IP 地址,避免网络容量过载,并提升最终用户网络体验。

运维数据可视化和领导视图

利用图形、图表、图表等形式,直观呈现网络中运维数据分析、处理的结果,尤其是网络专线大屏,动图呈现专线线路的流入/流出速率、丢包率、延时、抖动等核心指标,为用户提供网络优化的方向和依据。

应用价值

在部署智和网管平台后,数据中心将集团内交换机、防火墙、负载均衡、AC、无线AP、上网行为管理等IT设备进行集中管理,保障这些IT基础设施及其支撑的各类业务系统长期稳定运行。同时得益于智和网管平台强大的模型库扩展能力,数据中心实现了对不同品牌、型号设备在不同应用场景下的差异化监控,不仅能够实时对每台设备的运行状态进行关键指标的监测,还可以通过预设告警阈值,及时捕捉并处理潜在性能瓶颈和故障风险,有效预防业务中断。

在对用户运维场景进行充分调研后,通过平台内自动化运维编排功能,通过编写运维工作流,实现了日常巡检、故障自愈、软件升级、设备配置备份与恢复等日常运维任务,在极大地减轻运维人员负担的同时,提高了工作效率,保障操作的一致性和准确性。

在保障监控准确性的同时,智和信通也兼顾了用户体验,通过大量的数据分析和可视化功能,运维人员可以直观地查看IT设备的性能趋势、故障分布、业务系统健康度等关键数据,为决策提供有力数据支撑。

展望未来,随着集团信息化建设的不断扩展和数字化转型的逐步深入,数据中心也将面临更多元化的挑战。北京智和信通作为数据中心的一体化监控平台,也将持续引入更先进的智能技术,以更智能的方式预测并应对数据中心未来可能存在的风险,助力集团的IT基础设施成为支撑业务持续发展的坚定基石。