撰稿 | 流苏

编辑 | 图图

“安在讲堂”是由安在新媒体在千聊平台直播间全新开设的“网络安全公益讲座”系列栏目,广邀业内一线专家和安全大咖作为嘉宾,聚焦行业关注、响应从业者呼声,一同探索网络安全行业“危机下的规划与变化”。

2020年3月7日晚八点,安在特邀安信证券安全总监李维春做客“安在讲堂”直播间,以“疫情期间如何快速恢复生产并保障安全”为主题进行分享,从“疫情发展和应对举措,安全工作的变与不变”两个方面进行阐述,分享安信证券在疫情期间的实战经验和个人的心得感悟。

嘉宾介绍

李维春

诸子云深圳分会会长

经历复杂,做过开发、项目经理、创业者、大学老师

“误入”信息安全行业多年,科技创新型企业甲方经历为主,证券行业新兵

期待安全业界同仁多交流、共成长、互帮扶

疫情期间如何快速恢复生产并保障安全?

疫情发展和应对举措

疫情正式爆发是在1月19号,那时我刚刚进入休假阶段,在国外听说国内疫情爆发,当时我整个人还是有点懵圈的,不知道未来会是一个什么样的情况。

从大年初一开始,我们业务部门的同事和运维的同事就已经在讨论节后复工的各种可能性和方案。这也是奠定企业复工之后,我们能够从容不迫应对疫情时有一个非常好的提前量。

以前我们从来没有经历过这么大规模的远程复工模式,在这个过程当中我们也做了一些准备工作。比如给很多员工开vpn权限,那么所有的员工包括业务人员通过vpn进入内网后,都必须要经过堡垒机等一系列安全措施才能访问生产环境。

安全在这个阶段主要的工作一是开权限,二是同步加强安全监测。因为不管从外部的监测结果来看,还是从内部的监测结果来看,在这个阶段利用疫情对我们进行攻击,比如钓鱼攻击是时有发生的。当然最后都被我们拦截掉了,外部的网监和其他的安全保障部门也及时给我们预警。

随着部分员工陆续回到公司,而整个办公区又必须要保持通风的模式,所以以往的很多门禁以及物理安全的措施都失效了。除了请门口保安加强人员出入检查外,安全人员还会每天定期在办公区里面进行巡检,以防范外来人员造成的安全风险。这个工作虽然可能不是在it安全部门的负责范畴,但是从我们的工作角度来看,还是应该在特殊阶段负起这些职责。

通过前期的准备,在节后第1周的时间里,vpn、堡垒机和视频会议系统成为公司的核心业务支撑系统,且整个系统的容量、性能、并发数都创了新高。

为什么安信证券能够做到这一点?这和前期的几点准备工作分不开。一是在2019年7月,网络团队根据我们的业务场景提出了vpn的池化架构设计,并且在9月份最终上线,其中联合vpn厂家一起做了技术上的创新。 同时,安全证券的视频会议从2018年到2019年一直在做持续地扩容和方案重组设计。2019年,安信证券就对视频会议系统进行了核心组件的扩容,并且可以支持多种接入模式,在会议体验、安全性、功能扩展性等方面都有极大的提升。

节后第2周,安信证券进入了全面的远程复工状态,业务、开发、测试、运维等人员全部接入公司的内网进行远程办公,这个时候就又要依赖vpn和堡垒机等安全措施,依靠它们来解决公司远程办公下的安全风险控制。

由于当时疫情依旧非常严重,所以深圳的办公场地有可能处于不可用状态,针对这样的情况,公司提出要制定应急预案。第一还是之前提到的,为业务人员及时开通账号和权限;第二,按照以往的安全策略,测试资源不允许在远程模式上进行访问,所以我们及时和测试、网络部门同事进行沟通,确保测试资源能够在互联网上访问,并且安全风险可控;第三,在封楼预案中我们也积极的参与进去,评估各种应急场景下的安全策略以及各种情况下的应对举措。

在第2周结束的时候,我们基本上已经能保证研发、测试恢复到70%左右的产能,这就保证我们的生产工作基本上能够按照预定的进度推进。

这里需要提一下堡垒机。从第1周到第2周,公司大概有1000多人需要通过vpn加堡垒机接入,在远程办公的场景下堡垒机的接入数量大幅提升。我们之所以能够在短时间内应对远程办公场景,是因为安信证券从2018年到2019年就对堡垒机的各种访问方案进行整体设计,并且已经考虑到各种应急预案,比如堡垒机系统卡死,设备宕机甚至大楼断电等各种极端情况。所以在疫情期间,绝大部分通过堡垒机进来的远程办公的事的工作效率可以得到保证。

在春节后的第3周,公司基本上进入一个较良性的工作状态,但这时又迎来了新的任务:第一,监管机构需要通过远程视频对新三板的工作进行检查;第二,由于大量外包人员在前两周没有办法支撑我们的工作,因此公司提出让外包人员也接入公司的办公环境中,让他们的工作环境保证畅通的同时又能保证安全。

在这个阶段,安全还是要配合整个公司的业务策略,主要做了以下的工作。

第一,基于远程视频检查的安全策略、评估和保障做了一些整体网络安全策略的调整。

第二,针对外包人员接入公司内网访问公司资源,快速和相关团队一起进行沟通,确定了使用堡垒机的方案。为此,我们和厂家进行沟通,基于公司的虚拟机资源,云计算资源以及厂家提供的软件镜像方案,快速搭建了外包人员专用的堡垒机。同时进行了功能和性能测试、评估,并在一周之内将外包人员专用的堡垒机交付,一直持续在使用。

第三,第3周公司员工都提出需要使用腾讯会议或者钉钉作为辅助通讯工具,用于内部沟通、协作、开会等多个方面。为此,我们迅速和腾讯会议、钉钉分别取得联系,与他们进行沟通,并最终确定所使用的办公网络的安全策略,这里要特别感谢腾讯会议和钉钉同仁的快速响应。

所以节后第3周看上去好像有惊无险,事实上我们还是做了不少工作的。第一,远程视频的检查工作得到了监管部门的好评;第二,公司的研发、生产得以迅速恢复、提升,外包人员的接入也为我们提供了有效的支撑;第三,通过视频会议加腾讯会加钉钉的模式,我们同时有多套远程沟通的工具,既保证了平稳生产,又保证了及时、有效沟通,还保证了安全。

另外,还有一些看不到的场景和资源的支撑,举两个例子。第一,我们能对整个公设备、系统资源进行灵活扩充时,其实是因为背后的虚拟机资源可以提供有效的支撑。换句话说,公司的虚拟机资源在2018、2019年已经做了充足准备,并且能够灵活地跟着业务需求进行调配。第二,封楼的场景。在2019年的时候,公司有一部分业务机房是放在办公楼里的,当时在进行应急预案剖析时,我们运维部的同事就已经发现了这个风险,在运维领导的强烈坚持下,把机房从办公楼迁入到了我们的数据中心。当时来看这是一个没有特别产出、没有特别成效的举措,但现在来看,却是一个非常有效的应对疫情的举措。

期间,我也对这几周的工作进行了总结。

第一、重视。疫情期间公司业务平稳过渡、顺利开展、有效支撑,而且这几周证券交易达到了一个很高的峰值,背后是我们前期工作准备充足,提升了资源的储备能力,最终体现在业务上。我个人感触特别深的一点是,预见或预防风险是最有效的风险控制措施,而不是等风险出现了,事件发生了再去做应急和响应,但这也是最考验领导的决断力和重视程度。安信证券在2018年、2019年提前采取了一些风险预防措施,现在看来似乎恰好是为今年的疫情准备的。

事实上,我们现在的领导在安全和生产运行保障上给予了非常高的重视,也给予了资源和能力上的大力支持。当我们提出对于这些风险采取预防性措施的时候,领导总是能够给予我必要的资源支持,这一点我个人认为是非常重要,也是非常难得的能力。

第二点是在这次突发事件中,自己一个比较深的感悟。当时在和同行交流应急响应方案的时候,其实有些金融企业的同事很早之前就曾提出来,当某一个或者多个办公区不可用的情况下,如何保证业务连续性的问题。

所以,我现在也在学习BCP分析的方法论。以往我们应对这些突发的事件并制定应急预案,可能更多的是靠经验。也就说以前发生过的事情会被我们记录下来,并把它去当作一种可见的风险去预防和处理,但是一些风险是以前从未出现或极少出现的,所以不能单单只依靠经验。

第三点也是我个人做安全非常重视的一点,那就是要重视业务安全,安全的核心价值是保障业务顺利开展。实际上,安全的核心价值并不是为了遵守27001、为了将各种风险扼杀在萌芽中,安全的核心价值应该是保障业务顺利开展,同时要去适应业务需求,对自己的资源和能力做适当的调配。

比如前面提到的为了支持公司员工在公司内网能够使用腾讯会议和钉钉,我们必须开放内网的一些端口和访问策略。而在公司内网使用这些工具,就是当前的业务需求,就是保障业务顺利开展一个必要前提,因此我们就必须要遵从业、适应业务需求,并对安全策略、安全架构去进行必要的调整。同时,我们也要考虑这样做是不是能够保障顺利的业务开展。实际上是增加了在网络上的暴露面,所以我们就需要通过监测、响应、处置对这些暴露面来进行安全风险的应对。

这样既能够保证业务顺利的开展,又能够保证业务安全的开展,这才是安全团队的核心价值。所以,安全应该要适应业务需求,当你没有办法去适应的时候,也要对业务需求进行相应的引导,最终实现业务和安全双赢。

在面对突发事件时,我们又该如何去应对?我个人总结了三点:一是从架构入手,二是从情报入手,三是从预案和资源入手。

第一,架构。我在PPT上写的是弹性和韧性,这是我从BCP方法论中学到的词语,意思是整个安全架构不容易折断且能够快速恢复。它以前是形容IT的架构,我想在安全架构中也引入这个概念,并且从这个角度来重新审视安全架构。

举几个例子来说。

1.公司办公网大多会有白名单,白名单策略上线的时候一定会有很多争议,这也就决定了这个策略将来一定会被打破。从安全架构上来说,当它被打破的时候我们有什么样的安全措施能够让我的安全能力不降低?这就是一种韧性的表现。

2.在做开发的时候,系统上线会有安全监测,但是安全检测的策略也有可能会被绕过,我是不是有相应的补救的措施。比如可以在事后对这个系统所在的网络区域定期进行扫描和验证,以及提升相应的系统安全配置和安全能力,这两种措施就是我们的补救措施,实现架构的人性。

3.每个安全系统都会有性能上限,当出现突发流量或突发情况的时候,上限就有可能会被打破。那么我们是否可以提高性能上限?比如厂商卖设备时有灰度空间,可以进行弹性调整,或者对设备进行快速扩容。如果这两点都做不到,是不是可以把安全设备紧急断开,且在断开情况下还有补救的措施。

4.在安全架构中一般会有一些核心的安全部件,比如安全分析系统、SIEM系统或者情报系统,不管是基于主观或者恶意的原因,这些部件有一天一定会down掉,在这种情况下怎么保证我的安全能力不会显著降低?我觉得应该依据纵深防御理论,避免安全架构有单点障碍,至少保证防御和监测能力互为补充,一个点down掉之后,另外一点还能做相应的弥补,这样才可以有效应对突发安全事件,这是架构韧性的一种体现。

第二,情报。能够及时的感知突发事件是一种非常重要的能力。从现在情况来看,更多的是依赖情报监测能力。情报监测能力涉及以下几个点:比如关注威胁情报、业务安全情报、业务的动态,以及一些时政大事,这些事情都有可能会给安全带来一些突发的事件,我们需要不断加强情报感知能力。

第三,突发事件一定会发生,当事件发生时我们要做什么?一是需要紧急预案,二是需要资源,包括人、财、物、政策以及老板的支持和投入。那么怎么做到敏感度和快速响应呢?之前“君哥的体历”公众号最近发表过一篇文章,就是讲如何做好新冠病毒的应急响应,建议大家可以再仔细阅读一遍。

另外,应急预案平常一定要做演练,现在监管机构都强调要真演真练,我觉得安全领域也应该要去做应急预案并且要真演真练。这样才能保证事件发生的时候,可以从容不迫的、有效的应对,能够快速响应和执行。

安全工作的变与不变

疫情会给我们带来哪些变化?我个人认为变化是会有一些,但是主流的思想是不变的。在这段时间内,我觉得比较适合做规划、架构、总体的设计、以及准备项目的需求和材料。如果这时候需要做一些需要多人密切协作,紧密沟通的工作,难度会比较高而且效率非常低。从我自身的经历来看,大规模的培训和开会效果都不会很好,因为你不知道会议终端的那一头到底是在开小差还是在认真听讲。

很多同行可能会关注安信证券未来安全工作思路和调整方向,这里可以简单分享下,基本上还是会坚持现有的一些工作方向和工作思路,疫情对我们的影响是暂时的,重点会抓以下几点。

第一,提升现有的安全体系的效果和效率。一是抓安全度量;二是强调安全验证和审计安全防护效果;三是通过红蓝对抗和自动化提高安全工作的效率和效率;四是重点抓身份和权限控制;五,由于安信证券未来的自研的比例会越来越高,那么SDL的重要性会更加突出,目前已经建设了一个SDL的工作流程和方法论,需要进一步提升它的效果和效率。

第二,因为监管机构已经提出了一些很明确的数据安全要求,所以这几年会重点推进数据安全的工作。我们会抓分类、分级,会分析整个业务流和数据流,然后在业务流和数据流的关键节点进行管控。未来我们会探索会更优的架构和方法论,包括很多同行关注的零信任和DevSecOps等安全架构,进而提升安全的工作成效。

提到安全架构,其实业界有很多安全架构的理论和套路,而且每个人都会有自己不同的理解。这里我想分享一个不一样的安全架构思路,也是我一直在实践的,将之称为矩阵式安全架构。

上面的这张蓝色架构图是it系统的建设交付的业务流程,一般来说分为架构、需求、开发、测试、交付、运营这几个步骤。下面的这张流程图就是上面每个流程都要嵌入的基本动作,包括定规范策略,梳理资产,监测、分析,响应、处置,检查、改进等几个步骤,其实就把PDCA循环包裹进去了。

业界有很多安全架构,如PPDR架构等都有自己的合理性,但更多的是在交付和运营环节,往往在研发交付、系统运营的两个过程中有脱节。我个人并不是特别赞成这种方法论,安全架构思路应该进行一定的融合,实现全覆盖、与业务流程完美融合。

第三,工作思路不变。从这一次安全突发事件中我强化了几个认知,这张图上有白色字体标出的几部分,我觉得是安全工作当中是最容易被疏忽的。一是身份和账号,二是权限和特权,三是例外和残余风险,四是横向流量。

这里特别说说一下例外和残余风险。在日常安全建设的时候一定会有一些例外情况发生。比如系统有可能没有完全通过安全检测就得上线,比如它有可能会违反现有的网络白名单的策略等,甚至是当一个风险整改完毕后,它可能依然会有残余风险。

这些其实都是在现有的安全策略和安全体系上打的洞,这些例外和残余风险往往是风险系数最高的地方,是会被别人利用和打进来的地方,也是最容易被我们忽视的地方。

如何应对这些最容易疏漏的地方?我有三个绝招。

1.作为团队领导要深刻领悟和掌握PDCA工作方法论。我这么多年的安全工作经验,如果要问最大的收获是什么,那就是学会了PDCA这4个字母,并把它用到极致。

举个例子,当你在公司里开展培训,那么你要怎么培训,要培训什么内容?这是P,D就是你在公司里开展培训,所有人都完成了百分百的培训,通过率也是百分百,很多人就认为这件事结束了。

作为团领导,你应该关注的是,隔一段时间(三个月或六个月),你要再去看这批人经过培训后,他们对理论知识掌握的怎么样,还要看他在实际工作中运用这些培训知识的结果是什么样的?

当你去做检查和审视,然后回过来把现有的工作和策略中的漏洞和不足找出来并改进,这才是PDCA。每一项任务、每一项工作都把PDCA用到极致,你就一定能堵住这些疏漏的地方。

2.对于例外和残余风险,最简单的方法是拿个记事本把它记下来。如果觉得记事本麻烦就找一个知识库把这些记下来,当你每次要做安全规划或系统建设时,把记事本或者知识库翻出来看一看,你就知道还有哪些风险没有堵住。

3.check list。基于已有、已知的策略和残余风险,或者说依赖检查来补足的策略和风险,凡是需要这些动作的就把它列到check list里面,并且不断进行完善。这样的话最后可能做得会非常大,但在完整度上一定是足够的,同时可以根据自己的实际情况进行剪裁,定期做好check list,三个月一次也好,半年一次也好,只要你做check list就一定会发现风险,也就最容易堵住这些疏漏的地方。

接来下是分享的最后一部分,也是这个阶段最想特别强调的一点,远程办公给我们带来的思考。远程办公带来一个非常明显的变化是,办公效率和沟通效率很低。有一些技术人员不太擅长沟通,只喜欢埋头做事,这是我一直以来希望大家能够去改变和重视的一个问题。沟通是工作当中提升效率和效果非常重要的一个武器,尤其在远程办公的情况下,一定要高度重视沟通。

第一,注意向上管理,跟你的领导做好及时的沟通。第二,远程办公情况下,我推荐的沟通模式是当面或者电话沟通最合适,其次才是邮件和即时通讯工具。第三,恰当的使用邮件,邮件是一种非常良好的沟通工具,但是它适用的场合一般是当你需要对体系化、结构化的一些理论和想法进行构思的时候,而且邮件是一个有记录的工具,把它用好可以事半功倍。

最后一个是开会。远程办公场景下开会一定很多,但是开会一定要注意正确的开会和开有准备的会,保证会议的效率。在开会之前大家先进行点对点或小范围的沟通,在认知思想上达成一致,然后再开会,并且明确你要解决什么问题,这样会议才会高效。运用正确的沟通方式,正确的开会,可以有效提升大家的办公效率和沟通效率。

问答环节

1)木易:零信任网络未来会成为未来远程办公的主流模式吗?请问李总怎么看?

我的理解零信任架构应该会成为未来安全架构的主流模式之一。但是零信任架构因为对传统的安全架构有比较大的改造,以及需要安全和网络以及终端各方面的协作,对团队的资源和能力都有比较高的要求,所以我觉得应该是主流模式之一,传统的安全架构模式依然会存在。

另外,不一定说只是在远程办公场景下采用零信任架构,而是在内网和远程办公全部使用。其实还可以去问一些对零信任架构有实践经验的企业,比如奇安信和腾讯,听听他们的分享。我对零信任架构的研究还不够深入,以上观点不一定恰当,欢迎大家多指教。

2)安:腾讯会议具体采用了那些安全措施?能否具体讲讲腾讯会议的安全策略?

腾讯会议的安全策略其实就是在相应的网络当中开放它对应的TCP和UDP的端口,比钉钉的策略稍微简单一些,没有太多的域名和太复杂的安全策略。

3)Robin:请问一下春哥,非it类员工的远程办公,您们是如何支撑的,安全方面如何保障?

如果员工需要访问公司内部的资源,那么就必须通过vpn进入公司内网,然后通过公司内网连接堡垒机,再通过远程堡垒机访问你所需要的资源,或者通过堡垒机访问自己桌面的终端,再通过终端去访问公司内部的资源。需要注意的是VPN和堡垒机必须是双因素,通过这两项措施,基本上可以控制整体的风险。

4)B1G:远程办公,是直接通过***访问公司资源吗?是否经过云桌面跳转?还有是私人电脑远程公司资源,私人电脑是否有一些要求限制?研发、核心系统的远程办公策略是怎样的?

这个问题和上一个问题比较一致,我的回答是也基本一致,员工通过vpn进入公司内网,然后必须要经过堡垒机才能访问公司内部资源,整体的安全策略基本是这样。

5)张永刚:请问李总,本次疫情很多办公人员使用***远程到现场的办公电脑。在无堡垒机加持的情况下如何进行安全加固,有哪些比较现实的解决方案?如果从长远角度看,针对无法现场运维、办公的场景,有哪些技术解决方案可以供甲方评估和选择的?

第一,最好通过vpn进入公司内网,不至于让公司内部的系统直接暴露在互联网上。第二,进入vpn后可以在网络上做一些访问控制的策略,或者做一层隔离,通过隔离的系统再去访问公司的内网资源,这样至少可以保证他不能把数据带走。第三,据我所知的解决方案中,志翔在很多芯片研发企业使用这种解决方案,类似于某种特殊形式的堡垒机;云桌面(VDI)也是一种可以隔离的方案。

6)陈建茂:在外部服务商协助方面,都进行了哪些紧急扩容?

目前所采取的控制措施是允许他们通过vpn接入公司内网,并且这些账号只能访问外包人员专用的堡垒机,通过堡垒机再去访问各自的研发资源或者研发终端,再通过终端去访问公司内部的系统资源。

做的紧急扩容主要是用了厂家软件的堡垒机镜像,然后在我们的虚拟机平台上搭建了堡垒机,同时给虚拟机平台提供了足够多的资源。实际过程中有30%的用户反映体验不好,后来通过紧急扩容解决了这一问题。

7)素米:如果技术,业务及外包人员使用同一套堡垒机该注意什么?

在大多数企业的场景下这个风险可能应该比较小,不管是技术、业务还是外包人员使用同一套堡垒机,它核心差别只是访问的资源有差别,而他能够访问哪些资源,是在账号对应的堡垒机的配置中实现的。在要求严格的企业中共用堡垒机的风险可能在于堡垒机自身,一旦堡垒机被攻破,那么对应的系统资源就全都暴露出来了,这可能是一个核心的风险。

8)B1G:哪家的堡垒机,能支持远程办公期间这么大的并发,方便透漏吗?再就是远程访问,每次都是登录都需要双因素吗,如何考虑员工体验?

使用的是齐治堡垒机,它有软件镜像,基于软件镜像可以用虚拟机平台迅速搭建堡垒机系统,只要资源足够,堡垒机的性能应该比较充分。

每次登陆vpn必须要双因素,如果为了保证用户体验,可以设置在一小时或两小时内系统没有断开是可以自动重连。如果重新登陆必须要用双因素认证。

9)不仅如此:请教春哥,PDCA中,C的环节最耗时耗力,如何考虑C在整个环节里的资源分配?

C这个环节确实会耗费一些资源。我的观点是:1.确保重点风险的控制措施是有效的;2. 在资源和能力足够的情况做自动化,把审计所需的数据通过自动化捞出来,再通过自动化进行日常的审计;3.该投入的审计资源依然要投入,不要害怕投入,首先要看成效,以及保障的重点目标是否能达成,效果好是最重要的。

10)jerry:请问如何通过情报驱动企业的安全建设,贵司是怎么实践的?

首先我认为现在应该是数据驱动的企业安全建设,不是情报驱动的企业安全建设,原因是企业安全建设依赖各种信息,情报只是其中一种。如果单纯讲情报在企业安全建设中发挥的作用,更多的是支撑安全应急的响应和处置,及时处理重大的安全漏洞和风险,缩小企业安全风险的暴露面,进一步修复架构中的漏洞。

结语

非常感谢李维春的精彩分享,从本场直播的流畅程度就可以知道李维春是经过精心准备的,最关键的是直播中全是最新鲜的,最有价值的实践干货。认真听了本次分享的同学,想必在接下来的工作中就可以实践起来。

在本次直播中,信息安全新媒体安在照例在10名提问听众中抽取6名幸运者,其中5人将获赠价值299元的诸子云知识星球的入场券一份,这5名幸运听众分别是木易、Robin、张永刚、不仅如此、jerry,另外还有一人将获赠价值1000元的《2020中国网络安全产品用户调查报告》一册,他就是B1G(以上获奖者名称皆为千聊昵称),让我们一起恭喜他们。

再次声明,本期文章所有内容皆可在千聊“安在讲堂”直播间回看,公益讲座,全部免费。

最后,向仍然奋战在疫情一线的医护、军队、志愿者等勇士们致敬!