当今数字化时代,数据监控与人工智能(AI)的融合已成为企业运营的重要组成部分,这种协作不仅提高了数据处理的效率,还增强了决策的准确性和实时性。
数据监控系统通过实时收集和分析大量数据,帮助企业洞察业务流程和系统性能。随着技术的进步,这些系统已经从简单的日志记录和警报系统,发展到能够通过机器学习算法进行复杂模式识别和预测分析的高级平台。AI的引入使得监控系统能够自动调整参数、预测潜在问题,并在问题发生前采取预防措施。
在电信领域,基于数据收集的预测分析在发展中发挥着至关重要的作用。自 Zabbix 6.0 版本起,用户便开始享受到预测功能和机器学习方面的更新,这些更新使得他们能够分析 Zabbix 监控的数据,并将其与 AI 模块无缝集成。
本文摘自Zabbix官网博客: Lunio(巴西 Zabbix 认证合作伙伴)的联合创始人 Danilo Barros 在巴西Zabbix会议上的分享,展示了使用 Zabbix 结合人工智能和机器学习进行电信数据监控的成果。
1
项目背景介绍
Lunio 管理着超过 600 个 OLT(光纤线路终端),这是互联网提供商用于光纤基础设施的关键设备。该公司的业务覆盖巴西 20 个州的 800 多个城市,服务于 400,000 名客户。为了确保运营顺畅,避免对用户造成不利影响,并在发生事故时防止客户服务代理过载,对这些庞大数据的监控至关重要。
电信客户在遭遇大规模网络事件时,常面临客户服务热线过载的挑战。为了应对庞大客户群的需求,必须采取全面预防措施,以防止在停电或服务中断期间导致电话线路拥堵。
2
关键需求及挑战
考虑到客户的运营结构,与客户沟通了一系列需求,最终重点关注六个要点:
1、自动化:通过数字渠道为每个事件发送通知。
2、速度:提高客户服务体验满意度。
3、运营成本:预算优化。
4、根本原因分析:快速确定事件的原因。
5、可预测性:分析问题和识别趋势的能力。
6、报告:识别事件并遵循国家电信局(ANATEL)的规定。
考虑到这些关键需求,可以重新评估电信客户之前使用的工具,这些工具在流程中扮演了独特的角色。每个工具都有其特定的使用场景和信息验证周期,这在大规模事件中可能会对数百名用户产生影响。Lunio团队识别出的关键挑战包括:
1、集成:系统需要互连
2、完整性:持续更新数据
3、拓扑:通过特定程序进行系统映射
4、业务规则:尊重本地流程的开发
5、性能:对 600,000 项资产进行监控和自动化
6、高可用性:数十个数据中心满足本地需求
在明确了需求和挑战之后,Lunio 的技术团队着手推动内部变革。他们通过集成系统并运用 Zabbix 监控超过 60 万项指标,用来理解事件、预测潜在的未来错误。为此,他们开发了LunioAI——一个具备分析和预测功能,并且能够不断自我学习的“超级助手”。
在最初的响应测试中,LunioAI 能够在一分半钟内分析和评估大量事件。随着时间的推移,这一时间缩短到了 30 秒,使得技术团队的响应速度越来越快,对事件解决产生了积极的影响。
3
项目成效
在 LunioIA 的开发和优化过程中,运营团队参与了对网络潜在事件的预测性分析,为技术人员提供了必要的信息,以便对监控中的项目进行预防性维护。
LunioIA 整合了来自各种系统的数据分析,包括 FTTH(光纤到户)环境、数据中心以及监控项目,这些都是 Zabbix 监控环境的一部分。它能够诊断事件,评估事件的严重性,并找到解决方案,整个过程无需人工介入。
因此,当客户遇到服务问题联系服务人员时,服务人员无需从头开始了解问题,只需通过客户的 CPF(个人纳税人登记识别号)进行查询,即可快速访问由人工智能结合 Zabbix 数据监控系统识别的事件摘要、原因分析和解决方案,这样的流程大大提升了服务效率和客户满意度。
热门跟贴