IEC 61907-2009 — 通信网络可信赖性:可靠性、可用性和可维护性

标准号:IEC 61907-2009 | 类别:网络可信赖性 | 发布年份:2009
💡 IEC 61907 为规范、分析和验证通信网络的可信赖性提供了全面框架——覆盖从骨干光纤基础设施到无线接入网络和工业现场总线的方方面面。

一、范围与基本概念

IEC 61907-2009 从可靠性(MTBF)、可用性(运行时间百分比)、可维护性(MTTR)和可服务性(支持质量)方面定义了通信网络的可信赖性要求。该标准适用于所有类型的通信网络,包括有线网络(以太网、SDH/SONET、MPLS)、无线网络(4G/5G、Wi-Fi、微波链路)和工业网络(PROFIBUS、PROFINET、Modbus TCP)。它从用户角度(端到端服务质量)和基础设施提供商角度(网元可靠性)两方面解决网络可信赖性问题。

该标准的一个关键贡献是定义了专门针对通信网络的可信赖性指标,认识到网络可信赖性不同于传统的组件级可靠性,原因在于流量相关的故障模式、协议引发的恢复行为以及网络架构的分层特性。标准引入了”服务特定可用性”的概念——即特定网络服务(如VoIP、视频流、SCADA遥测)在任意时刻满足其性能要求的概率——将其与基础设施可用性区分开来。

⚠ 网络可信赖性分析中一个常见陷阱是将网元可用性等同于服务可用性。一个网元级可用性达到99.999%的网络,由于协议交互、拥塞相关故障和维护窗口累积,实际端到端服务可用性可能仅为99.9%。IEC 61907强调端到端服务可用性才是网络可信赖性的真正度量指标。

二、可信赖性指标与计算方法

2.1 网络特定可靠性指标

标准定义了若干网络特定的可靠性指标。平均服务中断间隔时间(MTBSO)衡量影响服务的故障之间的平均间隔,考虑到单个网元故障是否会导致服务中断取决于冗余设计。平均服务恢复时间(MTTRS)衡量中断后恢复服务的平均时间,包括检测、诊断、修复和验证时间。标准为串联、并联和网状网络拓扑提供了这些指标的数学模型,特别关注影响冗余路径的共因故障模式(如共享电缆管道、公共电源和软件共通性)。

2.2 冗余架构的可用性模型

标准展示了常见网络冗余架构的详细可用性计算方法。对于1+1保护(专用保护),使用带完美切换的并联系统模型计算可用性。对于1:N保护(共享保护),模型考虑了同时故障超过保护容量的概率。对于网状可恢复网络,标准引入了一个新指标——”可恢复比率”——定义为受故障影响的工作路径在指定时间阈值内恢复的概率。标准还讨论了维护活动对可用性的影响,引入了”维护窗口可用性”的概念——考虑计划性预防维护时可实现的可用性。

架构 典型可用性 MTBSO 保护切换时间
非保护点对点 99.9%(3个9) ~8.76小时/年停机 不适用
1+1专用保护 99.999%(5个9) ~5.26分钟/年 < 50 ms
1:N共享保护 99.99%(4个9) ~52.6分钟/年 < 50 ms
网状恢复(动态) 99.995%(4.5个9) ~26.3分钟/年 100 ms – 2 s
双归属(异构路由) 99.9999%(6个9) ~31.5秒/年 < 10 ms
自愈环(SDH) 99.999%(5个9) ~5.26分钟/年 < 60 ms

三、网络生命周期中的可信赖性

3.1 设计阶段可信赖性分配

标准提供了一种自上而下的可信赖性分配方法。从端到端服务可用性要求出发,设计者使用可靠性框图(RBD,参照IEC 61078)或故障树分析(FTA,参照IEC 61025)将可用性目标分配到各个网络段、子网,最终分配到单个网元。分配时必须考虑各网络段的关键程度:核心/骨干网通常分配99.999%的可用性,分配网分配99.99%,接入网分配99.9%。这些段级目标进而驱动各段内路由器、交换机、链路和电源所需的MTBF。

3.2 运行阶段可信赖性验证

标准要求在网络运行期间进行持续的可信赖性监测,同时使用主动测量(测量端到端服务可用性的合成事务探针)和被动测量(网络管理系统事件关联)。一个关键指标是”服务降级比率”——服务质量低于可接受阈值但尚未构成完全中断的时间比例。标准建议以滚动12个月为窗口收集运行可信赖性数据,每月和每季度对照设计目标进行评审。当实测可信赖性连续两个评审周期低于分配值时,必须启动正式的纠正措施流程。

✅ 工程设计洞察:服务降级比率通常比严格的可用性指标更有用,特别是对于语音和视频等实时应用。一个网络可能达到99.999%的可用性(意味着从未”中断”),但由于延迟尖峰或丢包导致VoIP流量的MOS(平均意见得分)降级,从而提供不可接受的质量。同时监测可用性和质量降级指标可提供网络可信赖性的完整视图。

四、可维护性与修复策略

标准通过平均修复时间(MTTR)指标解决网络可维护性问题,但认识到在通信网络中,修复时间主要受诊断和物流支配而非物理修复。对于光纤电缆断裂——这是导致长时间网络中断的最常见原因——典型的MTTR分解为:故障检测和定位(10-30分钟)、调度和路途(1-4小时)、电缆修复/熔接(2-6小时)和服务验证(30分钟)。标准建议网络运营商在地理上分布备件仓库并预先协商通道接入协议,以减少MTTR中的物流组件。对于设备故障,标准建议关键网元采用”4小时响应、8小时修复”目标,并在核心网络节点配备现场备件。

五、常见问题

问1:IEC 61907 与ITU-T可靠性标准有什么关系?

答:IEC 61907 与ITU-T标准(如G.827国际路径可用性目标和M.2100国际PDH/SDH路径性能限值)互为补充。ITU-T标准专注于特定网络类型的性能阈值,而IEC 61907提供了适用于任何网络的可信赖性管理通用方法。

问2:网络可用性的实际极限是多少?

答:对于具有完全冗余基础设施的单一网络域,99.999%(5个9)是可实现的,但需要大量投资。99.9999%(6个9)被认为是地面网络的实际最大值,相当于每年约31秒的停机时间。实现这一目标需要同时防范电源故障、光纤断裂、硬件故障和软件故障。

问3:软件故障应如何在网络可信赖性模型中处理?

答:软件故障带来了独特的挑战,因为它们违反了传统可靠性模型所依赖的”随机故障”假设。标准建议将软件缺陷视为系统性故障,并通过”故障模式和影响分析”(FMEA)而非统计MTBF方法对其影响进行建模。

问4:IEC 61907 能否应用于云和虚拟化网络?

答:2009版标准先于云网络的广泛采用,但其原则经修改后适用于虚拟化网络。虚拟网络功能(VNF)引入了额外的故障模式,如虚拟机管理程序故障、资源争用和编排故障,这些必须纳入可信赖性模型中。

© 2026 TNLab。版权所有。本文引用标准为IEC 61907-2009。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注