摘要:

在5G消息系统架构中,MaaP平台是负责实现行业消息交互的核心网元。5G消息上线后,如何保障MaaP在用户数激增的情况下平稳运行成为了运维工作的关键问题。通过分析MaaP运维管理工作潜在问题及痛点,利用MaaP运行状态、告警信息等实时监控数据,结合数据分析技术初步探讨了智能运维辅助管理的功能设计方案,包括MaaP实时运行状态监管及未来趋势预测、MaaP故障处理预案管理及自动化执行等。

01

5G消息概况

5G消息是运营商基于富媒体通信服务(RCS)实现的传统短信业务升级,可面向用户提供增强的消息服务,包括文本、图片、音频、视频、位置、联系人(vCard)等媒体内容的发送和接收。未来将会是运营商的基础电信服务,具有极高的商用价值和战略意义。主要体现在以下3个方面。

a) 5G消息具有安全可靠、端到端可达、功能丰富的特点,可以实现传统短信业务能力升级,改善用户体验,重新唤醒面向C端用户的消息业务,有机会与当前OTT类聊天应用软件一较高下,争夺互联网入口。

b) 当前众多企事业单位都在积极参与5G消息业务的应用与合作,社会大众也较为期待各行业基于5G消息的服务创新。运营商可以利用市场对5G消息的关注度,激活庞大用户群体的活力,探索一条不同于以往运营模式的新生态体系。

c) 5G消息为B端客户提供了一条全新的营销推广渠道,且具有跨平台应用对接,投入成本低、市场关注度高等优势,有利于进一步重构商业模式,引领全新的5G消息红利的新格局。

另外,根据三大运营商在2021 MWC上海展公布的5G消息最新进展,5G消息将在2021年内完成商用上线。据相关资料统计,截至2021年2月份,主流手机厂商已发布60多款支持5G消息的终端。可以预见,5G消息正式上线后必然会呈现爆发式增长,潜在用户数以亿计,这对5G消息各核心网元的业务能力和性能稳定性提出了更高要求,尤其是针对负责5G消息核心业务的MaaP平台,需要提供具备更高效率的运维管理能力、更多维度的异常状态监管能力。

02

5G消息MaaP系统现状

MaaP系统由MaaP平台和MaaP平台管理模块2个部分组成(见图1)。MaaP平台是5G消息系统的核心网元,部署在与各5GMC对应的大区,承载交互式5G消息业务,负责政企用户MaaP业务的接入、多媒体消息内容上传、消息审核对接、消息内容存储等功能。MaaP平台管理模块是5G消息系统中负责管理MaaP和能力扩展的核心网元,与MaaP平台采用HTTP协议对接,提供MaaP参数配置、路由节点管理、业务策略管理等,以及为5G消息系统提供更多扩展能力等。

图1 MaaP网络架构示意图

MaaP平台网管现有功能包含性能管理、告警管理2个模块。性能管理通过主动或者自动的方式从设备收集或由设备上报设备运行的相关参数信息,以直观的方式显示给维护人员,使其了解当前网络运行的基本情况和性能状态,预防网络事故的发生,预测网络运行状态,帮助网络管理员对网络的管理运营进行合理的规划。告警管理根据时延日常值设置告警门限,当时延指标劣化,低于门限时,自动上报告警,以便维护人员及时发现并分析处理并提供图形化界面的故障呈现方式,通过设备拓扑图直观查询到设备上出现故障的端口状态等相关信息。

考虑到后续5G消息业务规模的快速增长,MaaP平台的业务压力也会随之增大,单纯依靠传统人工运维的方法已经难以满足0停机率和100%设备在线运行的要求,主要存在以下3个方面痛点。

a) 需要MaaP运行状态实时智能感知与综合状态趋势预测,能够针对潜在异常情况进行提前发现与处理。

b) 需要针对系统运行异常的问题提供系统自动化生成处理方案与主动修复能力。

c) 需要实现运维工单的自动化派发并提供全面的故障分析与情况介绍,提升维护人员故障分析与处理效率。

03

数据分析技术应用融合

随着云计算、大数据、AI等技术快速发展,基于DevOps、AIOps 的智能运维开始兴起,使得传统运维体系中,存在大量重复性工作的运维人力成本和效率问题得到有效解决。然而在复杂场景下的故障处理、变更管理、容量管理、服务资源配置过程中,仍需要维护人员来掌控决策,不利于整个MaaP系统运维效率的进一步提升。而引入数据分析技术,MaaP智能化管理可以辅助维护人员甚至代替维护人员来做出高效决策与处理,从而真正意义上实现完全自动化(见图2)。

图2.MaaP智能化管理模块技术

架构示意图

MaaP智能化管理模块在技术架构设计上是MaaP平台管理模块的组成部分,通过SFTP接口获取来自MaaP、云资源池网管、网络中台的多维度运行数据,利用数据分析技术实现基础数据的清理、储存、分析、处置、应用等工作。数据分析集群拉取数据源的原始文件,并把数据载入HDFS分布式文件系统。为方便管理,HDFS的文件在经过校验过滤掉不合法的数据后存入Hive。通过多维OLAP(联机分析处理)技术,对多维数据进行有效的表达和处理,然后对数据库当中的关系型数据进行动态化多维度的分析,并将最终的分析结果储存到管理系统当中,实现对系统数据的进一步优化。另外,基于运行状态的历史数据、故障告警数据等建立系统运行状态预测模型,面向未来一天、一周,甚至更长时间的系统状态进行精准分析预测,在可能发生某个异常状态之前,提前做出预警提示,真正提高MaaP系统运行的稳定性。

图3给出了数据分析平台技术架构示意。

图3.数据分析平台技术架构示意图

知识图谱是积累运维工作经验为维护人员提供辅助能力的关键。通过以图的形式来展示运维知识,用节点来描述运维工作中一些具体方法或者概念,用边来描述维护处理方法与方法之间的流程关系或者实体的一些属性。通过这种结构化的知识表示形式,知识图谱将各类维护案例和处理方法等知识表达成机器能够处理和理解的形式,从而使机器能够像经验丰富的维护人员一样去分析异常并且做出合理的决策,进而为MaaP系统运维工作提供更加高效的智能化支持。

04

智能化管理功能模块设计

MaaP智能化管理功能是MaaP平台管理模块的核心功能,面向MaaP平台网管提供MaaP状态全面感知和智能辅助管理的能力,从功能上实现MaaP运行状态智能化监管和运行策略自动化管控等(见图4)。

图4.MaaP智能化管理模块功能

架构示意图

4.1 MaaP运行状态智能化监管功能

MaaP运行状态智能化监管应具备MaaP运行状况全面感知,平台健康状态预测等多种能力,解决原有人工管理方式响应速度慢、效率低的问题。具体实现上,通过收集MaaP运行日志、网络状态、资源池状态等数据,利用数据分析技术建立预测模型实现MaaP运行状态感知和多维度运行状态趋势分析。

MaaP运行状态感知能力依靠对接MaaP探测服务器实时监管MaaP状态,如主处理机性能、业务量、数据同步成功率等,结合网络日志、服务器运行日志、告警信息等多维数据全面分析监督MaaP运行状态。

平台健康状态预测基于MaaP运行状态感知功能所获取的历史数据,利用机器学习方法训练预测模型,实时分析未来一段时间的MaaP运行状态走势、业务量变化趋势,给出峰值具体数据及发生的时间点。系统根据平台健康状态预测得到的多维度状态趋势数据自动化生成应对策略。例如,当前运行问题来自服务器资源容量问题,则自动生成可满足当前需求的服务器配置,并预测未来何种情况下需要再次扩容。

4.2 MaaP运行策略自动化管控功能

通过抽取维护人员在MaaP各类异常状态的应对方案知识点,基于知识图谱建立一套完整的智能运维辅助决策功能,实现应急预案的自动推理与生成。同时可提供模拟工具,根据设定的参数模拟各类压力及故障情况生成应急预案,辅助维护人员更高效地处理紧急事件。

当MaaP出现运行故障或业务量过大的情况,根据自动生成的应对策略执行分流任务,实现MaaP业务向备用MaaP自主转发,并实时监控主MaaP和备用MaaP之间业务量、服务器压力、网络流量的情况对比,判断分流效果。

MaaP运行策略管控模块收集并记录系统运行中的故障告警信息和响应时间、工单派发及处理时间、故障处理流程及解决时间等数据,挖掘潜在的数据关联关系与问题点,为后续工作提供运维数据分析报表、高频次高风险问题统计分析等数据支持,帮助网管持续优化工作流程与方法。

4.3 运维工单智能化派发功能

MaaP系统运行状态异常时,运维工单会通过人工手动发送完成,然而,发送工单的人员很难通过简单观察描述出准确的故障情况和紧急程度,这会造成工单数量多且优先级混乱的情况。对于5G消息业务开展会造成难以估量的影响和巨大的经济损失。通过数据分析技术可以对异常情况的紧急程度做出准确判断,并结合当前系统状态数据和应急预案一同随工单自动派发给维护人员。

应用传统运维方式管理MaaP系统时,可能会因为维护人员自身对系统不够了解导致异常状态的运维效率持续较低,只能对潜在的故障问题一一排查,费时费力。而通过MaaP运行状态监管模块工单中所提供的应急预案,可以有效帮助维护人员处理现场问题,明确故障产生的原因,快速完成异常修复。需要注意的是,在实际使用中需要不断收集各类异常数据并持续训练优化异常状态的数据分析模型,才能在长期的生产环境中积累一定的数据基础,更精准地提供业务分析能力。

05

结束语

如何高效正确地提供MaaP管理能力是MaaP运维工作最为重要的内容,MaaP智能化管理功能以数据分析技术为核心,可以实现MaaP运行状态的全面感知与管控,理论上会为MaaP提供0停机、高稳定性运行的可靠保障。同时,面向MaaP可以提供各类异常问题的快速检索、预测和智能辅助决策,使得维护人员能够快速解决问题。数据分析能力充分体现了运维数据价值,真实反映了当前多个维度的系统运行情况,并能够通过数据分析发现当前MaaP系统存在的各类问题,甚至是潜在问题,及时辅助维护人员制定或完善更有利于运维管理的策略。

参考文献

1. 张勉知, 刘惜吾, 叶晓斌等. AI智能运维在5GC SA网络中的应用研究[J]. 邮电设计技术, 2020, (10):47-50.

2. 蔡超, 袁林, 张锡娜. 集约化宽带服务智能运维体系构建方法[J]. 电信科学, 2017, 第33卷(1):114-124.

3. 林舒刚. 5G网络智能运维研究[J]. 广东通信技术, 2020, 第40卷(3):32-35.

4. 郑金辉. 智能运维引领IT运维进入智能化时代[J]. 计算机与网络, 2021, 第47卷(1):44-45.

5. 司春宁. 基于知识图谱技术的轨道交通设备智能运维系统[J]. 交通世界, 2021, (C1 ):12-14.

6. 徐小勇, 李敏, 王静等. 大数据智能运维平台[J]. 通信电源技术, 2020, 第37卷(2):51-53.

7. 创新赋能智能运维的实践之路[J]. 网络安全和信息化, 2020, (1):90-91.

8. 郭云峰, 蔡珩, 戈磊. 基于大数据网格的电信IT系统智能运维体系[J]. 电信科学, 2018, 第34卷(6):153-161.

9. 钟秋浩, 张士庚, 王建新等. 面向电信承载网的监控系统设计与实现[J]. 计算机工程与应用, 2019, 第55卷(13):231-238.

10. 罗砚. 基于云计算的移动通信运营商智能运维研究[J]. 民营科技, 2017, (10):110.

11. 薛龙, 陆钢, 周奇等. 面向云原生的智能运维架构和关键技术[J]. 电信科学, 2020, 第36卷(12):105-112.

12. 严代彪, 朴银玥. 数据中心智能运维管理方案设计[J]. 计算机与网络, 2021, 第47卷 (6):38-41.

13. 方蓉蓉. 一种全域智能运维平台系统[J]. 中国传媒科技, 2021, (2):33-35.

14. 王万良, 张兆娟, 高楠等. 基于人工智能技术的大数据分析方法研究进展[J]. 计算机集成制造系统, 2019, 第25卷(3):529-547.

15. 崔晓龙, 郭茜, 边胜琴等. 支持模型复用的通用大数据分析平台[J]. 实验室研究与探索, 2020, 第39卷(7):64-70.

16. 徐增林, 盛泳潘, 贺丽荣等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 第45卷(4):589-606.

作者简介:

1. 盛煜,中国联合网络通信有限公司智网创新中心,高级工程师,博士,主要从事移动通信新技术、新业务研究工作。

2. 李野,中国联合网络通信有限公司智网创新中心,工程师,硕士,主要从事基于5G的网络创新产品设计工作。

3. 单丽雅,中国联合网络通信有限公司智网创新中心,工程师,硕士,主要从事5G新技术、创新产品研究工作。

4. 冯毅,中国联合网络通信有限公司智网创新中心,教授级高级工程师,硕士,主要从事移动通信系统网络规划及新技术研究和5G垂直行业业务探索方面的工作。

5. 赵雨田,中国联合网络通信有限公司云网运营中心,工程师,硕士,主要从事业务平台建设管理及运营。

6. 张伟强,中国联合网络通信有限公司智网创新中心,工程师,硕士,主要从事5G网络创新产品技术研发工作。

合作微信:548988739邮箱:newRCS@QQ.COM