浅谈灾难恢复的2个目标:恢复时间目标(RTO)和恢复点目标(RPO)

如今,灾难以多种形式出现。破坏、盗窃、遗失或自然灾害都会使企业的应用程序崩溃并破坏其数据。在理想的情况下,企业的数据保护基础设施可以立即在故障点时间恢复所有的应用程序和数据。

企业可以立即切换故障应用程序,并连续复制其数据以实现接近零的损失。但是这些操作耗费资源并且很昂贵。实际上,IT部门需要根据预算、资源和应用优先级来设置不同的恢复时间和恢复点目标。

人们将这两个目标称为恢复时间目标(RTO)和恢复点目标(RPO)。它们是相关的,并且这两者都是应用程序和数据恢复所必需的。它们也是不同用途的度量指标。以下讨论一下它们是什么,它们的相似之处和不同之处,以及为什么需要分析应用程序的优先级来平衡资源和应用程序的可用性。

定义RTO和RPO

(1)RTO:恢复时间目标

RTO指的是应用程序可以中断或关闭多少时间而不会对业务造成重大损害。有些应用程序可能会停机数天而不会产生严重的后果。而一些高优先级的应用程序只能停下来几秒钟,否则将会让企业和客户难以应对,并导致业务丢失。

RTO不仅仅是业务损失和恢复之间的持续时间。这个目标还包括IT部门必须采取的步骤来恢复应用程序及其数据。如果IT已经投入高优先级应用程序的故障转移服务,那么它们可以在几秒钟内安全地表达RTO(IT部门必须恢复本地环境,但由于应用程序正在云中进行处理,因此IT部门可能需要一些时间)。

企业的RTO任务是根据优先级和潜在业务损失对应用程序进行分类,并相应地匹配企业的资源。例如,接近零的RTO的典型计划将需要故障转移服务。4小时RTO允许从裸机恢复开始进行本地恢复,并以完整的应用程序和数据可用性结束。对于8小时以上的RTO,IT团队可以与本地系统集成商签署维护合同。

(2)RPO:恢复点目标

恢复点目标是指企业的损失容限:在对业务造成重大损害之前可能丢失的数据量。该目标表示为从丢失事件到最近一次在前备份的时间度量。

如果以定期计划的24小时增量备份全部或大部分数据,那么在最坏的情况下,企业将丢失24小时的数据。对于某些应用来说,这是可以接受的,对于其他人来说并不是这样。

例如,如果企业的应用程序具有4小时RPO,那么备份和数据丢失之间的最大间隔时间将为4小时。拥有4小时的RPO并不一定意味着企业将失去4小时的数据。例如一个文字处理应用程序在午夜停止运行并在凌晨出现故障,那么可能没有丢失太多(或任何)数据。但是如果一个任务繁忙的应用程序在上午10点关闭并且直到下午2点才恢复,那么企业可能会失去4个小时的高价值并且可能无法替代的数据。在这种情况下,需要进行更加频繁的备份,以便访问特定于应用程序的RPO。

这取决于应用优先级,单个RPO的范围通常为24小时、12小时、8小时、4小时。以秒为单位测量到接近零。只要对生产系统的影响最小,8小时以上的RPO就可以利用现有的备份解决方案。4小时的RPO将需要计划的快照复制,而接近零的RPO将需要连续复制。在RPO和RTO都接近于零的情况下,将连续复制与故障转移服务结合使用,以实现接近100%的应用程序和数据可用性。

RTO和RPO如何相似以及不同的原因

(1)RTO和RPO的几个特征

  • 恢复时间和恢复点目标因应用程序和数据优先级而异。即使是规模和实力最强的公司也不能为所有应用程序提供接近零的RTO或RPO,也不应该这样做。
  • 确保100%正常运行时间(RTO)和没有丢失数据(RPO)的唯一方法是投资连续数据复制功能的故障转移虚拟环境。
  • IT优先处理应用程序和数据以匹配所实现的RTO和RPO的费用。请注意,优先事项不仅取决于收入,还取决于风险。企业可能不经常使用应用程序,但如果其数据受到管制,那么数据丢失可能会导致巨额罚款。
  • RTO和RPO均以时间为单位进行测量。对于RTO来说,其度量标准是应用程序失败和包括数据恢复在内的完整可用性之间的时间量。RPO也以时间单位来衡量。度量标准是数据丢失和前一次备份之间的时间间隔。对于RTO和RPO来说,其应用程序/数据优先级可直接转换为更短的时间单位。

(2)RTO和RPO的目标存在巨大的差异

尽管它们有相似之处,但RPO和RTO服务于不同的目标。RTO涉及应用程序和系统,但主要描述应用程序停机时间的限制。

RPO主要与失败事件后丢失的数据量有关。但是,损失数十万美元的客户交易将是灾难性的后果。

RTO和RPO在行动中的实例

  • 单一文件恢复:例如一家公司员工意外删除一个时间敏感的电子邮件,然后清空回收站和文件夹的内容。由于Microsoft EXCHange是这家公司的业务关键型应用程序,因此IT部门不断支持EXCHange中的增量更改。而且由于他们的备份应用程序能够进行精细的备份和恢复,他们可以在5分钟的RTO内恢复单个文件,而不用为单个文件恢复整个虚拟机。
  • 电子商务网站:例如,一家零售商店的自营电子商务网站使用三种不同的数据库:存储产品目录的关系数据库,报告历史订单数据的文档数据库,以及连接到其支付处理器网关的API数据库。文件数据库可以重建来自其他数据库的数据,因此其RTO和RPO是在24小时内。该业务每周只向关系数据库添加一次产品,因此RPO并不重要。 其RTO是如果数据库关闭,则客户交易停止。

为了保持高可用性,这家商店采用了故障转移服务,因此数据库立即在虚拟服务器上运行。该公司将其在一周内进行的少量更改复制到其提供商的灾难恢复平台。API数据库包含订购信息,并且需要几秒钟才能完成RPO和RTO。 IT部门不断地将数据复制到故障转移站点,如果API数据库停机,该站点将立即接管处理。

成本考虑

调查表明,年收入1亿美元的公司在24小时宕机期间将损失约275,000美元。而将在4小时快照复制计划中损失约45,000美元,使用接近于零的连续复制的损失约为7600美元。

实际上,这个数量可能会更小或更大,具体取决于企业一天中的时间和应用程序活动。繁忙的任务或业务关键应用程序会比不太频繁的应用程序丢失更多的数据和更高优先级的数据。

企业需要相应地规划RPO和RTO,并在需要之前购买所需的资源。就像购买保险一样,企业可能永远不必使用它们,但可能会挽救其业务。

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-62778877-8261;邮箱:jenny@youkuaiyun.com。本站原创内容未经允许不得转载,或转载时需注明出处::优快云资讯门户 » 浅谈灾难恢复的2个目标:恢复时间目标(RTO)和恢复点目标(RPO)

赞 (0)