信息中心

一本不可或缺的灾难恢复指南

灾难恢复 (DR) 是指旨在保护企业免受重大负面事件不良影响的安全计划领域。凭借灾难恢复,企业可在发生数据灾难后维持正常运行或快速恢复其关键任务功能,而不会造成业务运营或收入的重大损失。

灾难的形态和规模不一。它们不仅包括诸如地震、龙卷风或飓风之类的灾难性事件,还涵盖诸如设备故障、网络攻击甚至被归类为灾难的恐怖主义之类的安全事件。

为应对这些灾难,组织机构和企业应创建灾难恢复计划,详细规划要遵循的流程和措施以恢复关键任务功能。

何为灾难恢复?

灾难恢复重点围绕支持组织关键业务功能的 IT 系统。它经常与业务连续性一词相关联,但二者不能完全等换。灾难恢复是业务连续性的一部分。它更侧重在灾难来临时保证所有业务正常运转。

IT 系统现成已成为业务成功的关键,因此灾难恢复当下是业务连续性流程的主要支柱。

大多数业主往往都不会认为自己会是自然灾害的受害者,直到无法预见的危机让公司付出巨大的运营和经济损失才幡然悔悟。这些事件无法预测,但作为企业主,您应居安思危,积极制定灾难应对计划。

企业面临什么样的灾难?

企业灾难可能是技术、自然或人为层面的。自然灾害包括洪水、龙卷风、飓风、滑坡、地震和海啸。不过,人为和技术灾难涉及的面较广,包括危险物质泄漏、电力或基础设施故障、化学和生物武器威胁、核电站爆炸或熔毁、网络攻击、恐怖主义行为、爆炸和内乱。

计划应对的潜在灾难包括:

  • 应用程序故障
  • 虚拟机故障
  • 主机故障
  • 机架故障
  • 通信故障
  • 数据中心灾难
  • 建筑物或园区灾难
  • 全市、区域、国家/地区和跨国性灾难

为何需要灾难恢复

无论规模或行业如何,在不可预见的事故造成日常运营中断后,您公司首先要做的就是快速恢复,确保继续服务个人客户和公司客户。

停机时间或许是企业面临的最大 IT 开支。根据 Infrascale 的 2014-2015 灾难恢复统计数据,一小时的停机时间可能引发的成本如下:小企业 8,000 美元、中型公司 74,000 美元,大企业 700,000 美元。

对于中小型企业来说 (SMB),生产力的持续下降会导致现金流吃紧、订单丢失、开票延误、错过交货日期,以及因停机恢复需要额外工时而导致劳动力成本上涨。

如果您未料到重大中断可能性并采取适当的对策,则意外灾难的发生会给您的企业造成长期的负面影响。

制定灾难恢复计划可让企业规避多种风险,包括:

  • 信誉损失
  • 预算外费用
  • 数据泄露
  • 对大客户和个人客户造成的负面影响

企业越来越依赖高可用性,因此,对停机时间的容忍度就越来越低。由此,很多企业制定灾难恢复计划,防止灾难影响日常运营。

灾难恢复的本质:恢复点目标和恢复时间目标

灾难恢复和停机时间的两个关键指标分别是:

  • 恢复点目标 (RPO):它是指灾难发生后,组织为继续正常运行而从备份存储恢复的文件的最长存储时限。它决定了最低的备份频率。例如,如果您的组织有四小时的 RPO,则系统必须每四小时备份一次。
  • 恢复时间目标 (RTO):它是指灾难发生后,组织从备份恢复文件以继续正常运行的最长耗时。因此,RTO 是组织可承受的最长停机时间。如果 RTO 是两小时,那么企业运营就不能中断 2 小时以上。

确定了 RPO 和 RTO 后,管理员就可以使用两种指标选择最佳的灾难恢复战略、流程和技术。

要在更紧凑的 RTO 时段内恢复运营,您的企业应优化次要数据的位置,确保可轻松快速访问该数据。有一种快速还原数据的方法是就地还原,它可将所有备份数据文件迁移到实时状态,从而无需在网络中移动数据。它可保护服务器和存储系统,以防出现故障。

使用就地还原前,企业应注意三个考虑事项:

  • 它的磁盘备份设备性能
  • 将所有数据从备份状态移动到实时状态所需的时间
  • 故障回复

此外,就地恢复有时可能需要 15 分钟,因此如果您要缩短恢复时间,则可能需要复制技术。复制指的是定期电子更新或复制数据库(从计算机服务器 A 到服务器 B),从而确保网络中的所有用户共享相同的信息。

灾难恢复计划 (DRP)

试用 Veritas 灾难恢复计划指南

灾难恢复计划指的是结构化的书面方案,说明如何应对计划外事件。这是一个分步计划,其中包括为尽量减少灾难的影响而采取的预防措施,以便您的企业快速恢复关键任务功能或继续正常运行。

一般来说,DRP 包括深度分析全部业务流程和连续性需求。此外,在制定详细的计划前,您的企业应执行风险分析 (RA) 和业务影响分析 (BIA)。同时还应确定 RTO 和 RPO。

1. 恢复战略

恢复战略应从业务级别开始,可用于确定企业运营最重要的应用程序。恢复战略可定义企业响应事件的计划,而 DRP 则详细说明您应如何应对。

确定恢复战略时,您应考虑如下几点:

  • 预算
  • 可用资源,例如人员和物理设备
  • 管理层的风险立场
  • 技术
  • 数据
  • 供应商
  • 第三方供应商

管理层必须批准与企业使命和目标一致的恢复策略。制定和批准恢复战略后,您就可以将它们转换为 DRP。

2. 灾难恢复规划步骤

DRP 流程涉及的不只是文档编写而已。业务影响分析和风险分析有助于确定 DRP 流程中集中资源处理的领域。

BIA 有助于识别破坏性事件的影响,这是在灾难恢复背景下识别风险的着手点。它还有助于生成 RTO 和 RPO。

风险分析可找出可能中断 BIA 中突出显示的流程和系统正常运行的漏洞和威胁。风险分析还可以评估破坏性事件发生的几率,帮助大致确定潜在严重性。

灾难恢复计划清单包括以下步骤:

  • 确当活动范围
  • 收集相关网络基础架构文档
  • 识别严重威胁和漏洞以及企业的重要资产
  • 回顾过去组织所遭遇的意外事件及处理方式
  • 确定当前的灾难恢复战略
  • 确定应急响应团队
  • 报批管理层审查并批准 DRP
  • 测试计划
  • 更新计划
  • 实施灾难恢复计划审计

3. 创建 DRP

组织创建 DRP 时应首先列出所有重要行动步骤的摘要以及必要联系人名单,以确保轻松快速地访问重要信息。

计划还应确定团队成员的角色和职责,同时列出启动行动计划的条件。它必须详细指定响应措施和恢复操作。DRP 模板的其他必要元素包括:

  • 意图声明
  • 灾难恢复策略声明
  • 计划目标
  • 身份验证工具,例如密码
  • 地理风险和因素
  • 应对新闻媒体的技巧
  • 法律和财务信息
  • 计划历史记录

4. DRP 范围和目标

DRP 范围有大有小,有基本的计划,也有详尽的计划。有些计划可能会达到 100 页。

灾难恢复预算也千差万别,而且会随时间逐渐波动。因此,组织可尽量利用一切免费资源,例如美国联邦紧急管理总署的在线灾难恢复计划模板。线上还有大量的免费资源和操作方法文章。

DRP 目标清单包括:

  • 识别重要 IT 网络和系统
  • 优先考虑 RTO
  • 概述重新启动、重新配置或恢复系统和网络所需的步骤

计划应至少控制对日常运营业务造成的不良影响。员工还应知晓发生不可预测事件后需采取的必要紧急措施。

距离虽然也很重要,但在 DRP 过程中会经常被忽略。从便利、成本、测试和带宽方面考虑,靠近主数据中心的灾难恢复站点是最理想的选择。不过,从中断范围角度考虑,如果两个位置相距很近,严重的地区事件可能会破坏主要数据中心及其灾难恢复站点。

5. 灾难恢复计划类型

您可根据环境要求定制 DRP。

  • 虚拟化的 DRP: 虚拟化是一种高效、直接实施灾难恢复的方法。采用虚拟化环境,您可以立即创建新的虚拟机实例,提供高可用性应用程序恢复。更重要的是,它可实现轻松测试。您的计划必须包括验证恢复能力,确保应用程序可在灾难恢复模式下更快速运行,在 RTO 和 RPO 时间内恢复正常运行。
  • 网络 DRP:随着网络越来越复杂,恢复网络的计划也变得更加错综复杂。因此,务必详尽阐述恢复流程步骤,正确测试并及时更新最新信息。在网络 DRP 下,数据与网络息息相关,例如性能和网络人员配备。
  • 云 DRP:基于云的灾难恢复范围大小不一,可以是文件备份,也可以是完整的复制流程。云 DRP 可节省时间和成本,而且空间利用率高,不过维护该 DRP 需要相关技能和适当的管理。您的 IT 经理必须了解物理服务器和虚拟服务器的位置。此外,该计划还必须解决云相关的安全问题。
  • 数据中心 DRP:该计划侧重于数据中心设备及其基础架构。此 DRP 的一个关键要素就是操作风险评估,它可分析所需的关键组件,例如建筑物位置、安防、办公室空间以及电源系统和保护措施。它还必须适用于更广泛的场景。

灾难恢复测试

测试可证实所有 DRP 的效用。它可找出计划缺陷,从而借机修复任何问题。测试还可以证明该计划的有效性以及是否达到 RPO 目标。

IT 技术和系统在不断演进。因此,测试可确保 DRP 处于最新状态。

有些企业可能出于预算限制、管理层不批或资源限制等理由不实施 DRP 测试。灾难恢复测试还耗时间和资源,而且要提前规划。如果要用到实时数据,可能还会引发事件风险。不过,测试是灾难恢复规划不可忽视的必要一环。

灾难恢复测试或简单或复杂,难度不一:

  • 计划审查涉及详细讨论 DRP,查找有无遗漏的元素和不一致等情况。
  • 在桌面测试过程中,您可查看参与者逐步完成计划的活动。您可借此了解灾难恢复团队是否知晓紧急情况下个人的职责。
  • 模拟测试是一项全面测试,它使用诸如备份系统和恢复站点之类的资源,而不运用实际的故障转移。
  • 另一种系统测试方法是在灾难模式下运行一段时间。例如,您可故障转移到恢复站点,让系统运行一周后再回退。

您的组织应根据灾难恢复策略安排测试,不过注意不要干扰正常运行。因为测试过于频繁也会适得其反,浪费人力。另一方面来说,不常测试也存在风险。此外,务必在大改系统后测试灾难恢复计划。

要充分利用测试:

  • 获得管理层的批准和资金支持
  • 向所有参与方提供详尽的测试信息
  • 确保测试期间有测试团队
  • 合理安排测试,确保不会与其他活动或测试冲突
  • 确认测试脚本是否正确
  • 验证测试环境是否准备就绪
  • 首先安排空转
  • 准备周全以视需停止测试
  • 让抄写员记录过程
  • 完成一份事后报告,详细阐述正常的点和失败的点
  • 运用收集的结果更新灾难恢复计划

灾难恢复即服务 (DRaaS)

灾难恢复即服务是一种基于云的灾难恢复方法,近年来越来越受欢迎。这是因为 DRaaS 降低了成本,简化了部署,而且支持定期测试。

云测试可以在共享基础架构上运行,因而可节省大笔资金。它们还相当灵活,您只要注册所需的服务,启用临时实例就能完成灾难恢复测试。

DRaaS 的期望和要求都有书面规定,具体可见服务级别协议 (SLA)。第三方供应商实行故障转移至自己云环境的收费有两种方式:按用量或合同形式。

不过,基于云的灾难恢复在大规模灾难后并不可行,因为灾难恢复站点没有足够的空间来运行每个用户的应用程序。此外,由于云灾难恢复对带宽要求更高,再加上复杂系统,很可能会降低整个网络的性能。

云灾难恢复的最大缺点可能是您几乎无法控制该流程,因此,在发生事件后,您必须委托服务提供商实施 DRP,同时要满足定义的恢复点目标和恢复时间目标。

供应商之间的成本差异很大,如果供应商根据存储用量或网络带宽收费,那成本无疑上涨得更快。因此,在选择提供商前,您应进行全面的内部评估,确定您的灾难恢复需求。

该提问潜在提供商的一些问题包括:

  • 您的 DRaaS 如何使用我们现有的基础架构?
  • 它如何与我们现有的灾难恢复和备份平台集成?
  • 用户如何访问内部应用程序?
  • 如果您无法提供我们所需的灾难恢复服务,后果会怎么样?
  • 灾难发生后,我们可以在您的数据中心运行多长时间?
  • 您的故障回退流程如何?
  • 您的测试流程如何?
  • 您是否支持扩展?
  • 您的灾难恢复服务如何收费?

数个灾难恢复站点

当主数据中心不可用时,灾难恢复站点可让您恢复和还原技术基础架构和操作。这些站点可以是内部,也可以是外部的。

企业应负责设置和维护内部灾难恢复站点。如果公司的 RTO 时间短,而且有大量信息需求,则务必配置这些站点。构建内部恢复站点的一些考量因素包括硬件配置、电源维护、支持设备、布局设计、暖通空调、位置和人员配备。

尽管与外部站点相比,内部站点成本高得多,但您可以控制灾难恢复流程的方方面面。

外部站点由第三方拥有和运行。它们可能是:

  • 热站点:这是一个功能齐全的数据中心,配有硬件和软件、全天候工作人员以及人员和客户数据。
  • 暖数据中心:数据中心配备齐全,没有客户数据。客户可以安装其他设备或引入客户数据。
  • 冷数据中心:支持数据和 IT 系统的基础架构。不过,这个架构没有技术,要等待客户企业激活灾难恢复计划并安装设备。有时,它可以在长期灾难恢复期间作为暖站点和热站点的得力补充。

灾难恢复层

在 1980 年代,SHARE 技术指导委员会和 IBM 这两家机构提出了用层级系统描述灾难恢复服务级别。该系统显示了异地可恢复性,级别 0 代表最少的数量,级别 6 代表最多的数量。

后来增加了第 7 层,以包括灾难恢复自动化。今天,它代表了灾难恢复场景中的最高可用性级别。一般来说,恢复能力逐层提高,成本也逐级上涨。

结论

灾难的应对准备工作并非易事。您应采用综合性方法,将所有因素都考虑在内,包括软件、硬件、网络设备、连接性、电源和测试,以确保在 RPO 和 RTO 目标内实现灾难恢复。尽管实施全面又切实可行的灾难恢复计划并非易事,不过潜在的好处却是巨大的。

公司中的每个人都必须了解当下落实的灾难恢复计划,因为在实施过程中,有效沟通至关重要。您不仅要制定灾难恢复计划,而且要定期测试、培训人员、正确记录一切流程并逐步改进。最后,慎用任何第三方供应商的服务。

需要为您的企业制定企业级别灾难恢复计划?Veritas 可助您一臂之力。立即联系我们,接听我们代表的来电。

Veritas 产品组合为您提供实现企业韧性所需的全部工具。从日常的小故障到“黑天鹅”事件,Veritas 可帮助您应对各种问题。了解有关“数据韧性”的更多信息。