点击标题下「广电猎酷」可快速关注

本文由《广播与电视技术》杂志独家授权。本文刊发于2017年第6期。

作者:田西勇(中国国际广播电台)

【摘 要】

云计算从理论走向实际应用,给广电行业的传播环境带来了巨大的改变,为传统广电行业的媒体转型和融合发展提供了技术基础和支撑。随着云计算技术的大量应用,为广电行业带来了技术革新的同时,也给传统广电行业的IT运维模式带来了挑战。如何在云平台上,保障项目实施、设备维护及业务应用响应的高效执行,实现从传统的IT运维向云运维过渡,是广电行业的技术人需要思考的问题。

【关键词】云计算,公有云,私有云,云运维

0 引言

近年来,随着互联网技术的蓬勃发展,传统媒体发生了翻天覆地的变化,媒体形态和传播形式迎来了爆炸性增长。新媒体的出现,使得媒体格局、舆论生态、受众对象、传播技术都已经发生并在继续发生着前所未有的变革[1]。云计算无疑是当前互联网领域的一个热点,随着技术条件的日趋成熟,云计算也逐渐从理论研究走向了实际应用,给各行各业的发展带来了翻天覆地的变化,对广电行业也产生了非常深远的影响。

目前很多传统广电机构已经认识到云计算对行业发展的重要性,并积极布局,通过自建或者合作的模式,搭建属于自己的云平台,力争借助云时代的到来,抢得行业发展的先机。例如:深圳广电的“全媒体融合新闻中心”,江苏省广播电视总台的“荔枝云”平台,福建广电网络的“互联网+TV”智慧云平台,甘肃广电网络的“阿里飞天云”,新疆广电网络的“天山云”,都是“云计算”与传统广电融合的一种积极探索,并且各有特色和侧重。当全媒体和云平台已经成为了广电发展的趋势和方向,意味着广电行业已经开启了云时代变革的大幕[2]。

1 云运维的概念

云计算技术的日益成熟,给广电行业的发展带了机遇。广电行业欲突破封闭,探寻云计算应用之路,要面临许多的挑战。本文,笔者就从运维大规模服务器集群过程中遇到的问题,抛砖引玉的谈一下,自己对云时代下广电行业的技术运维工作的思考。

广电行业的技术运维工作,其核心目标是高效、合理的整合软件系统和硬件基础设施,将其转换为可持续提供高质量服务的产品,保障服务安全运行的同时,最大限度的降低服务运行的成本。虽然近些年,云计算技术在广电行业的推广和应用,给传统的技术运维工作,带来了巨大的冲击,但是保证系统和服务的可用性、稳定性和高效性这个运维工作的本质属性,并没有变化。

“云运维”在行业内并没有一个标准化的概念。笔者认为,从“对单个、隔离的服务器和单一的业务软件的运维”向“大规模服务器集群和复杂的业务系统的运维”的转变过程,其实就是从“传统运维”向“云运维”逐渐转变的过程。

所谓“云运维”顾名思义就是云计算时代的运维,是对云平台和其上业务软件的运行和维护工作,目标是为用户提供可用的、稳定的、高效的业务系统。

2 云运维的特点

“云运维”是“传统运维”在“云计算”时代变化和发展出来的一种新的运维方式,虽然其本质还是运维,但是和传统运维相比,也有着其自身的特点。

2.1 运维对象不同

计算机的发展,经历了从“集中”到“分布”再到“集中”的过程,对计算机的运维模式也随之发生了变化。

第一阶段:在计算机出现初期,由于设备的昂贵和应用面的狭窄,计算机还仅用在科研和军工等少数机构。人们通过不同的终端,共用一台主机进行工作。运维人员只需要保障这台主机的硬件设备和加载的应用程序稳定运行,就可以为所有连接在这台机器上的用户提供服务;

第二阶段:随着计算机成本的降低、计算能力的增强和互联网的普及,标志着个人计算机时代的来临,计算机也广泛应用到了各行各业中。以广电行业为例,运维人员往往需要保障几十台甚至上百台服务器和其上各种应用程序的稳定运行,才能确保整个业务系统的正常工作,任何一台设备或者应用出了故障,都有可能导致业务系统的使用受到影响,运维人员的工作模式也从“集中”变为了“分布”,工作量大大增加;

第三阶段:云时代的来临,信息量爆炸性增长,同时又有了大量闲置的计算资源,各种资源慢慢从“分布”向“集中”转变。此时的“集中”并不是集中在一台或两台大型机上,而是集中到由100 台、1000 台甚至更多的计算机按照逻辑功能组成的、可以为用户提供更高的计算能力及海量存储空间的计算机集群上,这是和以往截然不同的应用场景,这时候运维人员面对的机器数量将会暴增,但由于集群的特殊属性,对单台机器和应用的稳定性要求不会像以前那么高,所以运维模式将会发生重大转变[3]。

2.2 运维模式不同

云运维和传统运维,其工作目标都是保证服务器和应用系统的稳定运行,并没有本质的差别,云运维与传统运维最大的区别就在于需要运维的服务器的数量上。传统的运维工程师,一个人可能负责几十台服务器,最多也就上百的服务器,但是对于云运维维工程师来讲,一个人可能面临的情况是几百、上千台服务器这么一个量级,而且云平台的易扩展性,也使得运维人员面对的服务器数量,会是一个极速膨胀的状态,这就导致云运维和传统运维,在运维模式上,有根本的区别。云运维和传统的运维在运维模式上,究竟有哪些不同?

传统运维人员,遵循以服务器为中心的运维模式[4]。抛开机房建设,运维部门一般会在年底,根据目前系统的使用情况和第二年预期的业务增长情况,采购交换机、服务器、存储等设备和应用软件,然后根据机房现有的空间和网络情况,对新的硬件设备进行上架、连接网络、安装操作系统、部署应用业务,并对硬件设备和应用系统,做好监控和日常维护,确保单台设备都有很高的稳定性和可用性。运维人员需要熟悉机房情况和每一台设备的硬件配置如:CPU、内存、操作系统,机房位置,网络的拓补结构等,还要熟悉每台服务器上运行的业务系统,发现任何一台设备出现问题,都要及时响应,迅速解决,确保业务系统的正常运行。传统运维时代,设备是真实存在的,管理起来相对明确。运维工程师大部分时间都在处理耗时繁琐的硬件故障和相关监控等事项,而这些和业务本身并没有太大的相关性[5]。

云运维人员,遵循以应用程序为中心的运维模式[4],将运维重心由基础设施转向应用程序。以前需要运维工程师完成的,如:数据库集群、存储系统、负载均衡、主备系统的搭建,都在云平台建设时期完成了。运维人员只需要一个账号和密码,就可以登录云平台,按照自己的需求,花几分钟的时间,即可部署一台可以直接使用的服务器。运维人员还可以按照业务的需求量,随时申请并调整系统的使用量,在此过程中,运维人员已经无需见到物理的任何底层设备,配置服务器不再是一个复杂而耗时的过程,而是可以像实际软件那样来配置。云平台是成百上千台服务器组成的集群,这些服务器在云环境下不再是一个强依赖的关系,即使其中十几台服务器同时出现故障,也不会对业务系统产生任何影响。运维人员并不需要时刻关注每一台服务器的是否正常运转,只需要在一定周期内,更换不能运行的服务器或者应用系统即可,所以运维人员就可以用更多的精力关注业务系统的维护、优化上[5]。

面对传统的几十台服务器时,运维人员还能手动处理;但是在云计算平台,面对1000台、甚至是10000多台服务器时,负责系统底层的运维人员仅仅是日常巡检和监控,都会变成一件十分困难的事情,同时由于云平台里的各种资源都虚拟池化后,故障定位和排除都将成为技术难点,这时候自动化运维必须得派上用场了。因此,运维人员不仅需要一个强大的控制系统来控制对网络流量、CPU利用率、进程、内存、存储等的使用,还需要一个资源管理系统来管理这些资源的生命状态,还需要权限管理系统来管理权限等[6],这些共同实现了自动化运维,自动化运维将是云平台下的主流运维方式,也将是运维工作的高级阶段。

2.3 对运维人员要求不同

传统的运维人员,需要7×24小时待命,时刻准备带着笔记本、串口线、网线、USB转换头等各种设备,鏖战在轰鸣的机房中,解决各种故障;而在云计算时代,我们可能只需要坐在舒适的办公室里面,在键盘上轻松的敲击几行代码,就能解决大部分的运维问题。读到这里,也许大家会认为,相比于传统运维来说,云运维变的多么轻松、简单。实际情况却是,云运维人员需要掌握更全面的知识,更熟练的操作技巧,对各种设备和应用系统,有更深刻的认识,才能真正的实现这种反差。

传统的运维,不仅要求运维人员熟练掌握服务器、存储、交换机等常用的硬件设备的基本操作外;而且要能够快速安装操作系统,部署各种应用,操作数据库,配置网络等;还要定时去机房巡检,更换损坏的硬件,去机房上架服务器等。所以想要成为一名合格的传统运维工程师,什么脏活累活都是必须要面对。

云运维时代,运维的重心已由“硬件设备”向“应用程序”转变,所以除了云平台的底层运维人员外,并不是所有的运维人员都需要接触到物理硬件设备,其中绝大多数运维人员的工作重心,是对云平台上各种业务系统的运维,运维人员的工作就不仅仅部署几台服务器,搭建几套数据库这么简单,所以对运维人员提出了更高的要求:

1. 云运维人员必须对底层系统、网络拓扑和整体架构有更全面的了解。虽然在云平台下,云运维人员不用直接接触底层的硬件设备,自动化运维的手段能够实现实时监控,并自动化、智能化的排除故障,但是实际情况往往比理论复杂,一旦涉及到底层故障问题,没有扎实的专业技术,不仅不能解决问题,甚至连故障点都可能无法定位。

2. 运维人员必须具备一定的开发能力。云平台是由大规模的服务器集群组成,由于其庞大的数据量和计算量,迭代的时候,容易收敛时间过长,导致收敛于非最优状况。运维人员具备一定的开发能力后,一方面可以通过自己对底层了解的优势和对业务整体状态的掌控,帮助开发人员修改程序,减少应用程序对底层的依赖,向上推动应用程序的升级,向下推动底层的优化调整;另一方面可以配合开发团队进行快速迭代部署, 推进云平台的问题快速收敛[3]。

传统运维人员向云运维人员的转变,是一个循序渐进的过程,需要传统运维人员转换观念,强化技术,扩大知识面,来应对时代的变革。

3 面临的挑战

随着越来越多的广电机构拥有自己的云平台,用户的工作环境也从原有的内网环境向着公网(公有云)环境转变,这会面临着以下几个挑战:

1. 运维难度增大:云计算环境下,由于引入了众多的新技术、复杂的集群结构,运维好云平台对技术的要求高,再加上需要对云平台上的应用进行快速部署,快速更新,实时监控,非常精确地动态分配资源,这都对运维团队提出了很高的要求。传统的运维团队,他们可以很轻松的配置网络,部署服务器,管理数据库,可是当运维工作转移到云平台上,运维人员就摸不到门路,运维人员想真正的驾驭云平台的运维工作,需要一个重新学习的过程。

2. 数据安全:在广电行业,传统环境下一般都是自建机房或租用IDC机房,所有的IT基础设施和数据,都由运维人员自己掌握,数据和业务的安全性相对容易保障,可控性高;而在公有的云平台下,数据和业务的暴露面就增大了,原来黑客需要入侵内网,才能拿到的数据,由于在云平台的共有网络上,用户是通过账号密码登陆访问的,现在黑客只需要破解了账号和密码,就能直接登陆云平台,获取其想要的数据,数据被窃取的风险大大增高。

3. 业务的整合:对于传统的广电行业来说,把业务系统迁移到云平台是一个系统的、复杂的过程,不能急于求成,进行一刀切,必须对自身业务有着深刻的了解,并对云平台的运维有实际经验,才能较为准确的完成业务的迁移和整合工作。一般而言,对于紧耦合的,无法分割成相对独立的小功能模块的业务来说,云计算无法显著提高效率,还承担了额外的安全的风险,对于这样的系统,并不适合转移到云平台上。

4. 系统的扩展性:虽然云平台的易扩展性,使用户可以按照业务的需求量的增加,轻松添加服务器的数量,满足新增业务量的需求。但是实际情况却是,每增加一个节点,系统的复杂度也会随之高,安全性则更加不可控制,系统出错概率增高,运维人员往往担心技术的正常调整可能会带来未知的错误,而选择保守方案,所以要真正做到可随意扩展的云,还有很多路要走。

4 采取的措施

云计算的优势明显,但是在部署和运维的过程中,给运维人员带来了很大的挑战。就像计算机的发展那样,云计算也最终会融入到各行各业,成为行业的基本架构和平台。从广电行业的角度,笔者认为真正做好云计算技术的应用和平台转型,需要处理好以下几点:

1. 人才队伍的建设:在云平台上的业务,小到一次用户登录,大到一次节目制作,只要和IT相关的业务,都离不开运维人员的劳动。在云平台上访问的系统,都是建立在虚拟池化后的资源上,运维人员不再轻易接触到具体的硬件设备,而是通过运维监控界面上的各种层层抽象化的数据,来排查故障,故障定位的难度升级,对运维人员的技术要求很高。云计算时代对运维人员的技术能力也有更高的标准,如:能够熟练操作云平台,自动化地部署各种应用程序,然后通过生命周期去管理和维护;可以快速的完成资源配置和更新;自动完成新增节点,容量预配置,应用程序、网络I/O、数据流量的监控,这些都是对云运维人员新的要求。我们应该主动为运维人员组织相关培训,着重培养运维人员的开发能力,构建由熟悉云计算、云存储核心技术的专业人员的队伍,做好人才的培养和储备,帮助大部分运维人员完成对云运维的转型,而且,我们应该通过专业的分工方式,让每一位运维人员,都聚焦到更加细分的技术领域,把相应的工作做到更细致,以应对云时代的变化[7]。

2. 做好业务切换工作:云计算的优势明显,但是目前的应用也还在探索阶段,对于广电行业而言,在云平台的推广过程中,运维人员应该把握好业务切换的进度。从云计算的特点来看,云计算适合用在对执行效率要求高、 运算能力要求强、动态扩展能力要求好的业务上,比如:OA办公系统、新闻自动拆条、多媒体的低码流查询、自动技审、基于互联网的网站发布等;而对于高清视频节目的生产制作和播出,网站的制作等重要业务,对安全性要求很高,同时对云计算的这种集群架构、分布式处理等技术没有很强需求的业务,我们可以在前期继续保持原有的自建机房的模式进行传统运维。业务切换到云平台的原则是遵循安全好用,切实提高用户体验的角度,选择那些轻耦合、非核心的,对资源需求动态扩展性高的,基于互联网应用的业务开始[7]。我们肯定要做云计算,但是不应该炒概念、蹭热点,把所有业务都要一下转到云平台上,这也是不切实际的。

3. 做好云运维的安全保障:在云平台上,我们还不能忽视数据安全和业务安全的问题。云平台同样会面临诸多安全威胁,如:账号被劫持,权限控制失效,系统出现漏洞被利用,数据文件的泄露、丢失和篡改,内部人员的恶意攻击、木马程序的攻击等安全威胁等[8]。所以,与传统运维相比,必须更加重视云的安全性,如:云平台建立之初,要配合研发部门,识别出各部分的安全隐患,根据业务的实际情况,确立明确的云平台建设和维护方案;对云平台各个部分建立不同等级的安全级别区域,做好详细的责任划分;构建一系列安全产品、服务和策略,来防御攻击,最大限度的保证云平台的安全;定时对云平台进行安全检测,发现系统安全漏洞,及时修复;做好云平台的安全管理,坚持日常安全运营和应急响应相合;做好云平台的系统恢复功能的维护,一旦系统遭受攻击,能够立即进行恢复,最大限度的防止数据的丢失,减少对业务的损害。

5 结论

云计算时代的来临,是一个不可遏制的趋势,新技术的发展必然会给我们的工作带来挑战,但是新技术的应用,最终却会让我们从低技术含量、繁忙的、琐碎的、重复的传统运维工作中解放出来,把精力投入到有创造性的、高技术含量的和业务相关的监控、安全、自动化配置和性能调优等工作环节中,一个技术熟练、思路清晰的云运维人员将会节省很多潜在的技术成本。

参考文献

[1] 李亚彬. 积极打造新型主流媒体不断提高舆论引导能力——关于传统媒体和新兴媒体融合发展的研究报告[J]. 重庆邮电大学学报:社会科学版,2016,28(2):1-7.

[2] 佚名. 广电开启云时代变革大幕[J]. 传播与制作,2016,(6)

[3] 柯旻. 浅析云计算运维经验[OL] .http://wenku.baidu.com/link?url=aMHIKow-4TjrHzNdNloOh0t2HVDvhTFx4ehhyD0clIMYBddHqeQeaW4o52fmCtOAUfN03dA0rJTjyNApenRjVodMiy-dMSrontrnQ3CPgfm.

[4] 佚名. 传统运维和云运维区别比较不同观点想法[OL].http://www.2cto.com/os/201608/539303.html.

[5] 刁德保. 技术干货:云上运维与传统运维的区别[OL].http://www.yinews.cn/article/3102260.shtm.

[6] 佚名. 说说云计算时代,运维人员会踩到哪些坑?[OL].http://cloud.51cto.com/art/201507/483714.htm.

[7] 崔伏龙. 云计算技术在广电领域应用的探讨[J]. 视听界: 广播电视技术,2010,(6):80-83.

[8] 佚名. 工业互联网云平台安全防护的八个步骤.[OL].http://bbs.360.cn/thread-14844507-1-1.html.

作者简介

田西勇,中国国际广播电台采集制作中心运行维护部主任,高级工程师,从事广播电视技术工作二十余年,有着较丰富的工作经验,目前负责国际在线网站系统、台媒资系统、视频制作系统的运行及维护工作。

内容不错?点击页面右上角"分享到朋友圈": )

有话要说?关注"广电猎酷",可在文末写留言:)