文 / 中国建设银行运营数据中心副主任 常冬冬

中国建设银行运营数据中心 王艳华 刘威 赵刘韬 王鑫

中国建设银行运营数据中心副主任 常冬冬

IT运维是数字化世界持续良性运转的基石,在企业数字化转型越来越迫切的背景下。传统的IT运维模式已经不能适应在新形势下业务快速迭代发展的需求。有鉴于此,本文提出了一套能对运维进行统一描述的 OASIS模型,以及基于该模型的生态化运维(OASEopS)方法,形成了一种与数字化转型相适配的运维理念。

传统IT运维的困境

传统IT运维的困境

当前对IT运维发展阶段的划分,主要以技术能力的提升为衡量标准,典型的如人肉运维、脚本运维、自动化运维和智能化运维。然而技术能力无法体现运维理念所具有形而上的、颠覆性的内涵,如果以运维理念为核心,可将IT运维划分为手工运维、流程化运维和体系化运维三个时期。

在手工运维时期,运维数字化程度较低,IT运维人员和少量运维工具呈分散形态,对人的经验依赖极大,运维需要具备很强的技术能力,不确定性和随意性较高。进入流程化运维时期后,运维数字化程度有所提高,依托ITIL、COBIT等IT管理方法,IT运维流程逐步完善,用于运维管理的零散平台和工具也越来越多,缺乏基于场景和全流程的统一调度和管理。究其原因,一是IT对象的诸要素之间互相割裂,缺乏能对IT 系统运行的全部要素及其关系进行完整描述的模型;二是线上流程与线下活动脱节,流程平台实际上已经成为一个线下或事后的记录系统或监督系统,不能直接有效地对风险和质量进行管理。

要解决上面的问题,运维模式必然会进入体系化运维时期,即通过一种结构性的方法对运维进行统一描述和管理,打通线上与线下、组织与组织之间的隔阂,形成正反馈的运维体系。本文探讨的基于 OASIS(Object-Activity-Scene Integral Skeleton)模型构建的生态化运维体系即属于体系化运维的一种高阶实现。OASIS是在运维中以对象、活动、场景三个维度构建的集成描述框架,以运维对象模型化、运维活动服务化和运维场景编排化为手段,实现开放、敏捷、共享的生态化运维(OASEopS)模式。

OASEopS生态化运维体系建设方案

OASEopS生态化运维体系建设方案

OASEopS实施的总体思路是采用自顶向下和自底向上相结合的建模方法,将IT运维工作先从整体到局部进行解构,再从具体到一般进行模型抽象,然后基于抽象出的统一模型进行工具平台建设,最后以平台为依托构建生态体系,如1图所示。

图1 OASEopS实施方法

1.分解运维工作

IT运维的主要问题就是从物、事、人的角度,解决在IT运维中管什么、做什么及怎么做。基于此,将运维体系分解为运维对象(Object)、运维活动(Activity)、运维场景(Scene)三个维度。首先需要结合行业制度规范和运维实践,识别出运维业务活动,并制订各个运维活动的标准要求;其次是解构IT组织,抽象出不同层级的运维对象,落实具体运维活动在特定运维对象中的实现方法;最后从运维人员岗位工作实际需求出发,识别运维工作场景,描述场景的流程和活动组合(如图2所示)。

图2 运维工作分解图

2.抽象分解内容

运维体系的抽象过程就是将分解运维工作生成的规范、标准和方法从传统上不具备直接生产力的文档形式转变为采用统一描述语言的模型,并将运维对象与运维活动解耦,最终根据需求灵活嵌入场景流程中。

(1)运维对象模型化。运维对象模型化的要点是将能够充分描述运维对象的各要素进行整合建模,形成通用对象模型 ;进一步根据运维对象类的不同,通过声明式定义描述其实际特点并和实现方式解耦,生成对象类模板,结合行业特性和监管要求等还可形成行业模板。前者可以认为是一种协议规范,后者是对协议规范的具体实现。

如何确定对象描述模型包含哪些要素呢?一个核心的原则是要遵循奥卡姆剃刀定律,即在同时满足业务完备、管理便捷和执行有效三个层面的基础上力求简洁有效。首先在业务完备层面做加法,其次在管理便捷和执行有效层面做减法,最终将对象模型的描述抽象为六要素,即对象属性、对象关系、指标数据、活动规则、活动轨迹和特征标签,如图3示。

图3 运维对象模型及模板示例

对象属性中包含传统配置属性信息及其他由部署决定的扩展属性;对象关系描述了与此对象相关的包含、调用、依赖等关系,既包含静态关系也包含动态关系;指标数据描述了此对象的运行态信息,包含运行基础数据和运行指标;活动规则是对运维活动标准要求的抽象,如对象的自发现规则、配置采集规则、指标计算规则、监控规则、合规检查规则等;活动轨迹指的是对象相关活动执行产生的过程数据,如交换机的变更数据等;特征标签是对象的相关信息计算结果或者人工配置的特征信息,是对象的一种高阶描述。

(2)运维活动服务化。基于运维对象的统一描述模型,运维活动可根据具体对象类实例的描述信息提供服务,并对外暴露标准接口形成通用运维服务目录。新增对象也无需重构运维活动服务的代码,只需对新对象按六要素模型进行描述,各运维活动可根据对象定义自动提供服务,实现了运维活动与运维对象的解耦。如传统IT运维中,不同对象有不同的监控工具,监控活动与运维对象耦合度较高。而按对象和活动解耦的思路,各对象类通过对象模型声明要监控的指标和异常检测方法等,监控服务不再关心监控的具体对象,只需根据对象的描述提供故障发现与告警推送服务。

(3)运维场景编排化。运维活动是原子化的,由某一个具体岗位提供最小化的工作内容。而运维人员在实际工作中经常使用的是运维场景,如一个新系统上线或者收到一个容量告警的处置。因而完成了对象模型和活动服务抽象之后,还需要根据工作需要搭建运维场景。运维场景是有流程的,在对象模型化和活动服务化的基础上,运维场景可由若干个对象的若干个活动服务编排而成。

3.搭建运维平台

基于OASEopS思路搭建的运维平台,是在运维工作分解和抽象的基础上,将数量众多的模型、服务和场景纳入统一管理。如图4所示,OASEopS平台在数据和基础技术工具的基础上搭建,具备三大基本功能:对象管理,产出各对象模型;活动管理,产出各类活动服务;场景管理,产出编排好的各类运维场景。活动服务和对象模型构成了运维的业务中台和数据中台,而各类运维场景则对应着运维业务应用。值得一提的是,由于所有的运维活动和场景都是在统一建模的基础上,因此通过低代码开发运维平台的可行性大大提高,做到需求方直接参与运维业务开发,SRE转型也会更加便捷。

图4 OASEopS运维平台示意

4.构建生态体系

OASIS模型是开放的,运维对象模板中承载的运维知识和实践经验也可以资源的形式发布和共享,各服务提供商均可提供基于通用对象描述模型的运维服务,运维服务需求方也可根据需要选择不同的厂商服务搭配形成自己的运维体系,复用业内最佳实践,形成一个开放的生态圈,如图5所示。利用生态圈中的“通用语言”,各方推出通用的运维服务、对象模板和运维场景,与其他企业和部门共享运维能力。通过生态运营管理,将整个生态圈运转起来,实现运维工作四处逢源。

图5 基于统一描述模型的生态化运营体系

OASEopS的价值突破

OASEopS的价值突破

OASEopS方法作为一整套先进的运维理念,为开辟IT 运维领域的第二条S曲线提供了可供实践的路径。首先它通过一站式OASEopS平台将之前分散的运维工具和平台所实现的功能有机整合起来,打造基于场景的运维。其次线上流程与线下活动融为一体,运维活动监管和审核的有效性大大提升,并且为打通IT运维数据、业务运营数据形成企业大数据中台奠定基础。最后OASEopS真正实现了IT运维的“书同文、车同轨”,降低了业界运维能力共享与技术输出的门槛。OASEopS在运维的效率、效能、可管理性、合规性之间做出平衡,为基于经验和工具的运维向基于数据和算法的运维变革提供了理论支撑和能力框架,同时也为运维的智能化、低代码等发展方向奠定基础。