《复仇者联盟 4》的战斗已经打响了,费了比抢春运火车票更大劲儿才抢到电影票的 Tony 同学,此刻心里一直祈祷着……
这次观影时不要再出现上次那样:在灭霸打了响指后,公司的网站服务系统就鬼使神差地遭到拒绝访问的攻击,应急电话打到手机上,催他迅速归队的窘境。
当他跑出影院的那一刻,心里居然对“紫薯怪”的那句“Today,I lost more than you know.”产生了强烈共鸣。
的确,正所谓“事故无假期”。天真烂漫的您是否想过:如果在每次出现安全事故的时候,都有硬核的复仇者联盟赶过来救场,让您和您的团队能够继续放飞自我、欢乐地玩耍,该有多好啊。
好吧,如您所愿,让我们来一起设想一下,这些超级英雄们将如何进行事故响应与处置。下面,我们将从人员、流程、演练,这三个维度展开畅想与讨论。
人员架构
如今,随着安全意识的增强,很多企业都在他们的内部组建了专门的处理团队。
这些团队或被称为计算机事故响应团队(CIRTs)、也可以被叫做计算机安全事故响应团队(CSIRT)。
那么对标到复联里,我们来具体看看响应团队的成员架构、以及职能:
处置流程
没事的时候,复联的超级英雄们可以将史塔克大厦里当作应急响应指挥部(war room)。
他们不但可以一起吃比萨、开轰趴,也可以聚在一起讨论和制定应急响应的处置流程。
就像灭霸梦寐以求的那六颗无限宝石一样,他们讨论得出的如下六个步骤,同样对于安全事故的管控来说也是弥足珍贵的。
①力量宝石:前期准备
这个阶段主要是由计划设计师–猩红女巫来发挥作用。她需要参考本企业和系统的以往事故报告,根据最大允许中断时间 MTD(应保证RTO+WRT
参照业界常规的处置标准与方法,来定义事故的级别(从一般性的事件到严重的灾难),分类不同的故障中断种类,并根据现有的资源,制定相应的应急响应计划。
作为输出,此阶段交付成果包括:紧急联系人列表、业务单元优先级列表、事故界定与分类参考表、严重性矩阵参考表、以及具体的应急响应计划与 BCP 等。
这些结果应及时得到高级管理层–尼克·弗瑞,以及其他神盾局的大神,如菲尔·寇森等的批准,并下发到其他业务部门听取反馈意见。
②空间宝石:检测与识别
这个阶段主要是由值守监控员–鹰眼侠来发挥作用。他可以通过如下两个渠道来获悉安全事故:
- 企业面向内部的服务帮助台(Service desk),以及面向外部的热线电话(Hot line),都可以接报从内、外部用户处上报而来的系统故障、或是服务中断事故信息。他们通过详细问答的方式,了解并收集到关于事故的第一手资料,然后以手工录入的方式导入统一的管理平台,以备下一步跟踪处理。
- 自动化工具平台对系统中的各个服务模块、及部件的日志进行读取,然后通过安全信息与事件管理系统(SIEM)中的用户及实体行为分析(UEBA)服务,进行综合性的数据分析。
面对用户告知的带有主观色彩的报告、以及扑面而来的海量平台信息,鹰眼哥需要进一步根据自己的经验、以及猩红女巫在上一步制定好的事故分类标准,进行剔除误报和初步分拣定级等操作。
其中,他可以参考的分类依据包括:网络与云端服务的中断,系统漏洞的攻击,主机与网站的恶意代码注入,程序的缺陷与终止,信息的篡改、泄漏与删除,硬件设备的故障,以及大面积的灾害等。
作为输出,此阶段交付的成果包括:安全事故的原始记录,和事故性质与严重性报告等。
这些结果应及时流转到响应团队执行经理–美国队长处。当然,如果情况严重的话,他还应迅速通知到高级管理层–尼克·弗瑞那里。
③现实宝石:调查与取证
这个阶段主要是由安全调查专家–黑寡妇来发挥作用。她可以从主机系统、网络数据、软件应用、存储介质四个逻辑层面,以及现场物品等物理层面上,开展调查与取证工作。
为了保证各种电子证据与实物证据的“三性”原则,寡姐应通过设置只读和产生消息摘要等手段,娴熟地捕获和保护好证据链,使之满足电子发现等合规的要求。
当然,在进一步分析的过程中,如果碰到比较棘手或者是涉及到法规层面的问题,她可以去寻求法律代表–洛基的帮助。
话说回来,我们不能保证洛基是否还对当年与寡姐的相互审问耿耿于怀(请参见《复联1》)。
在取证的同时,定损与跟踪专家–蚁人开始深入调查原因,并界定系统的受损程度。
具体说来,他主要是从数量与程度两个维度,分析那些丢失、破坏或暴露了的数据与物理资产。当然,他的工作也会涉及到对一些滞后、间接影响的评估。
作为输出,此阶段交付的成果包括:寡姐诚邀蚁人共同向管理层和美队提交取证、调查和评估的结果。
④灵魂宝石:报告与公关
再不让钢铁侠出场的话,估计他要气爆了。作为公共关系与沟通角色,他虽然不涉及到使用具体的技术,来处理安全事故所带来的危害,但是他是整个处置环节中不可缺少的润滑剂。
为了实现有效的危机管理,他需要做到如下几个方面:
- 参考猩红女巫整理的联系人列表,以邮件、电话、微信、甚至是广播的形式,通知该安全事故所波及到的内部相关人员。
- 按照“快报事实、慎报原因”的原则,向客户、合作方以及外部调查部门提供事故情况说明、以及必要的技术问题解答。
- 在披露的时间与频率、以及可能带有当事人隐私等方面,他应诚邀洛基协助审阅。当然,心眼小的洛基也可能为了当年钢铁侠的那句“小鹿斑比”,而直接目送他“入坑”(请参见《复联 1》)。
- 还需要和洛基“牵手”一次的是,他们应共同整理核对相关合同与约定,特别是那些其中涉及到的责任赔付条款。
⑤时间宝石:补救与恢复
真正的系统补救战斗,在这个阶段才正式打响。此时出场的是“黑绿红蓝组合”,他们是:
- 负责基础设施的保障与恢复工作的黑豹
- 负责系统与主机恢复工作的绿巨人
- 负责网络搭建与恢复工作的蜘蛛侠
- 以及负责软件应用恢复与调试工作的幻视
不言而喻,在此环节中,他们会根据寡姐和蚁人的阶段性成果,各司其职展开抑制、恢复、及根除等工作。
其中,值得他们注意方面包括如下四点:
- 针对猩红女巫给定的业务单元优先级列表,制定带有时间节点的抑制与补救策略。
- 在恢复的过程中,各路英雄要注意沟通与交流,应避免在自顾不暇时,忙中出错、产生衍生破坏、甚至是“坑害”队友的情况。
- 在取得阶段性成果(milestone)后,要请业务单位负责人、以及美队予以确认。
- 碰到技术难题,Hold 不住的时候,可以请出外部技术专家–锤哥。让他调用自己的神族资源,另辟蹊径地解决问题。
不过,该过程最怕的是:人人都以为自己是大牛,都能掌控全局,因此需要美队从中协调。
特别是对于那些耗时耗力的恢复任务,大家要做到既有条不紊、又协作推进。
不然,正如《复联 3》最后那样,灭霸还被没咋地,联盟就已经自损过半、CP 东南飞。
⑥心灵宝石:总结与整改
正如电影剧情安排的那样,消失了将近 30 年的事后整改牵头人–惊奇队长虽然出场较晚,但是她的实力能够起到一定的“兜底”作用(请参见《复联 3》)。
在安全事故处理已毕,大家正准备“领盒饭”时,她却“开挂”了。下面我们来看看这位女战士是如何展现她的超强执行力:
- 回顾并文档化整个事故的处置过程。
- 对前面各个阶段的响应速度和处理效果进行评审,重点分析在实战中偏离了猩红女巫既定的应急响应计划的部分。
- 向尼克·弗瑞等管理层提交问题根除的整改方案。
- 定期对当前系统进行风险评估(RA),引导相关团队进行有针对性的自查,防止类似事故的复发。
- 与猩红女巫合作,通过变更流程来按需更新应急响应中的步骤要点。
- 向“地球民众”发放满意度调查问卷,或接受管理层对于响应绩效的考评(请参见《美队 3:内战》)。
测试演练
众所周知,上面教科书式的处置流程,最怕出现计划与现实相脱节的情况。
因此,为了保证复联英雄们在关键时候能够招之即来、来之能战、战之能胜,他们需要定期、以及按需地开展测试演练。
测试演练的好处与内容包括如下方面:
- 让团队的每个成员都能够明确、熟悉并掌握,自己在应急处理中的角色与职能,进而弥补或改进手头上的技能短板。
- 通过模拟战斗,发现猩红女巫在计划设计中的不足之处,以及找到需要互动协调的地方。
- 以 PDCA 的方式,对现有的行动方案进行推陈出新,让每个成员都能树立成功处置安全事故的信心。
- 在应对事故时,考察各一项人力物力资源的调配情况。如果出现上述主要岗位的超级英雄没灭掉(请参见《复联 3》)的情况,则需要按照接班人计划(Line of succession)及时补上新的英雄。
- 当然,就是全部被消灭了的话,我们地球人不是还有 DC 的正义者联盟吗?(漫威迷们不要喷我…)
结语
英雄和我们凡人一样,也会有各种小脾气,他们之间甚至会为了好基友而产生内部摩擦,甚至会打起“内战”。
但是在面对共同的敌人–灭霸所造成的系统安全事故时,大家应当能够摒弃前嫌,生死看淡,不服就干才是。
然而现实工作中,复联并不会真的飞来为我们企业的安全事故“接盘”。
为了不再出现 Tony 观影时被紧急电话叫走的尴尬,也为了避免匆忙地将事故处理成“比悲伤更悲伤的故事”,我们需要从上述人员架构、处置流程、以及测试演练,这三个维度贯彻到事故响应的整个生命周期之中。
(本文作者:陈峻)
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-62778877-8261;邮箱:jenny@youkuaiyun.com。本站原创内容未经允许不得转载,或转载时需注明出处::优快云资讯门户 » 开个脑洞:如果让复联来响应安全事故