ISO/IEC 27031:2011 — 信息和通信技术业务连续性指南

面向业务连续性的信息和通信技术就绪指南

ISO/IEC 27031:2011 为在组织业务连续性管理(BCM)大背景下的信息和通信技术(ICT)业务连续性就绪提供了指南。它弥合了组织级业务连续性计划(BCP)与必须支撑它的技术 ICT 灾难恢复(DR)能力之间的差距。ISO 22301 从整体上解决业务连续性管理体系,而 ISO/IEC 27031 则专门聚焦于 ICT 维度——涵盖确保 ICT 服务在中断后能够在商定时间范围内继续运行或恢复的策略、计划和程序。

ISO/IEC 27031 回答了许多组织忽略的一个关键问题:如果您的业务连续性计划假设 ICT 服务将可用,那么您如何确保 ICT 组织本身也有计划?该标准提供了企业 BCP 和 ICT DR 规划之间缺失的环节。

1. ICT 就绪框架

该标准建立了一个与策划-实施-检查-处置(PDCA)模型相一致的结构化 ICT 就绪框架。它涵盖了从策略和政策,到实施、测试和持续改进的完整生命周期。

组件 描述 关键交付物
ICT 连续性政策 ICT 连续性的意图和方向声明,与业务连续性政策保持一致 经最高管理层批准的政策文件,定义范围、目标和治理结构
业务影响分析(BIA) 基于业务关键性识别和优先级排序 ICT 服务 包含每个 ICT 服务的 RTO、RPO 和关键性评级的 BIA 报告
风险评估 识别对 ICT 基础设施的威胁,评估中断可能性和影响 风险登记册、处置计划、风险接受文档
ICT 连续性策略 为每个关键服务选择恢复策略(热备、冷备、云等) 含成本效益分析和每个服务层恢复方法的策略文档
ICT 连续性计划 详细的响应、恢复和重建程序 计划文档、运行手册、升级树、供应商联系清单
测试与演练 通过演练、桌面推演和全面模拟验证计划有效性 测试计划、场景库、演练报告、改进登记册
最有效的 ICT 连续性项目将 BIA 视为动态文档,而非一次性项目。随着业务优先级的转变,服务的关键性也在变化——去年是三级服务的系统在数字化转型后今年可能成为一级服务。至少每年以及在每次重大变更后重新审视您的 BIA。

2. 恢复策略与架构考虑

ISO/IEC 27031 指导组织根据 BIA 中确定的恢复时间目标(RTO)和恢复点目标(RPO)选择合适的恢复策略。不同的恢复层级需要不同的架构方法:

恢复层级 RTO RPO 典型架构 成本水平
0 级 — 无要求 不适用 不适用 无特定灾难恢复准备 最低
1 级 — 冷备 数天至数周 日备份 离线备份介质、备用硬件、手动恢复过程
2 级 — 温备 数小时至 1 天 小时级备份或复制 预配置的备用环境、定期同步
3 级 — 热备 数分钟至数小时 近实时复制 带同步复制的双活或主备部署
4 级 — 双活 秒至分钟 零数据丢失 带负载均衡的多区域双活部署 非常高

对于工程团队而言,选择双活还是主备架构是 ICT 连续性设计中最具深远影响的决策之一。双活提供更快的故障切换和更好的资源利用率,但引入了数据一致性、会话管理和冲突解决的复杂性。主备架构实施和测试更简单,但浪费备用容量并引入故障切换延迟。

ICT 连续性中的一个常见失败模式是仅考虑技术恢复而不考虑人员和流程。如果运营团队无法进入设施,或者运行手册假定的人员配备水平在疫情或区域灾难期间不可用,那么完全恢复的服务器集群是无用的。始终测试完整的场景,而不仅仅是技术故障切换。

3. 测试、演练与持续改进

ISO/IEC 27031 强调未经测试的计划不是计划——而是希望。该标准建议采用渐进式测试方法,从组件级测试开始,逐步构建到全面的综合演练。测试频率应基于风险:RTO 更严格的关键服务应更频繁地测试。

该标准定义了多种演练类型,从低保真度的桌面讨论到高保真度的全面运行演练。每种类型服务于不同的验证目的,并应在测试周期中以适当的间隔使用。

工程团队应跟踪的 ICT 连续性成熟度关键指标包括:具有记录和测试计划的 ICT 服务百分比、演练中的平均恢复时间(MTTR)与目标 RTO 的对比、演练完成率与计划的对比、识别出的差距数量和严重程度,以及在目标时间范围内关闭的纠正措施百分比。

4. 常见问题解答

问:ISO/IEC 27031 与 ISO 22301 之间有什么关系?
答:ISO 22301 规定了组织层面的业务连续性管理体系(BCMS)要求。ISO/IEC 27031 提供了支持 BCMS 的 ICT 特定指南。可以将 ISO 22301 视为业务连续性 ICT 组件的”做什么”,ISO/IEC 27031 视为”怎么做”。
问:ISO/IEC 27031 与当前版本的 ISO/IEC 27001 是否一致?
答:ISO/IEC 27031:2011 早于 ISO/IEC 27001:2022,但在技术上仍然有效。ISO/IEC 27001:2022 中的条款 A.5.29(中断期间的信息安全)引用了业务连续性,ISO/IEC 27031 为此控制措施提供了详细的 ICT 实施指南。
问:ISO/IEC 27031 是否涵盖基于云的灾难恢复?
答:虽然该标准早于云计算的广泛采用,但其原则直接适用于云环境。云灾难恢复(DRaaS)可以映射到其恢复层级。组织应确保其云 SLA 指定了 RTO/RPO 承诺,并定期测试云故障切换程序。
问:ICT 连续性计划应多久测试一次?
答:该标准建议采用基于风险的方法。RTO 在 4 小时以内的关键 ICT 服务通常应每季度测试。中等关键性服务(RTO 4-24 小时)应每半年测试。低关键性服务至少每年测试。所有计划在重大基础设施变更后也应进行测试。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注