Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
在电力、通信、数据中心和过程工业中,工程师经常听到一句话:”这个系统的可用性是 99.99%。”这个数字看起来很美,但它到底是怎么来的?更重要的是——你怎么验证它是真的?
IEC 61070《稳态可用性合规试验程序》(Compliance test procedures for steady-state availability)正是为此而生。它提供了一套标准化的统计方法,用来验证系统是否真的达到了标称的稳态可用性指标。
稳态可用性 (Steady-State Availability) 的核心公式简洁而深刻:
A = MTBF / (MTBF + MTTR)
其中 MTBF = 平均故障间隔时间 (Mean Time Between Failures)
MTTR = 平均修复时间 (Mean Time To Repair)
这个公式揭示了可用性工程的三个核心洞察:
IEC 61070:1991 属于 IEC 标准体系中”可靠性管理”和”可靠性验证”板块。它与下列标准形成互补:
不同于单纯测 MTBF 的可靠性试验,IEC 61070 的独特之处在于它同时考察了系统的”抗故障能力”(可靠性)和”恢复能力”(维修性),并用一个综合指标——可用性——来评判系统是否达标。
IEC 61070 的核心贡献是提供了一套统计上严谨的试验方案框架。它不告诉你怎么测某一个特定系统的可用性,而是给出了通用的试验规划、执行和判定方法论。
下表总结了 IEC 61070 框架下常用的三种可用性合规试验方案:
| 方案类型 | 核心思路 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 定时截尾试验 (Fixed-Duration Test) |
在预定时长 T 内观察系统,记录总停机时间 D。若 D/T ≤ 限值则通过 | 试验周期可预测,易于项目管理 | 样本量较大才能达到统计置信度;可能浪费试验时间 | 项目进度严格受限,需要确定性的试验截止日期 |
| 定数截尾试验 (Fixed-Failure-Count Test) |
累计到预定故障次数 r 后停止。基于累积停机时间判定 | 统计效率高,总能获得足够的故障数据 | 试验持续时间不可预测(可靠系统可能跑很久) | 可靠性水平中等、故障率已知或可估计的产品 |
| 序贯试验 (Sequential Test) |
边测边判:根据累积的 (故障数, 停机时间) 数据点与决策边界比较,随时做出通过/拒收/继续的决定 | 平均试验时间最短(约节省30-50%),高可靠系统可快速通过 | 试验时长不确定;需要实时数据记录和绘图能力 | 昂贵或稀缺样本,希望以最小的试验代价做出判定 |
| 序贯验后加权试验 (SPRT-Generalized) |
序贯概率比检验的扩展形式,适用于复杂系统可用性验证 | 理论最优的统计效率 | 实施复杂度高,需要专业的统计软件支持 | 高价值、长周期的系统(如核电站安全系统、航空电子设备) |
任何统计试验都无法做到 100% 正确。IEC 61070 要求试验设计者理解并权衡两类错误:
IEC 61070 通过 OC 曲线 (Operating Characteristic Curve) 将这两类风险可视化。好的试验方案应在 A ≥ A₀ 时高概率通过 (≥ 1-α),在 A ≤ A₁ 时高概率拒收 (≤ β)。
OC 曲线是 IEC 61070 的核心工具之一。它绘制了”系统真实可用性”与”试验通过概率”之间的关系。一个”陡峭”的 OC 曲线意味着试验对新系统有很强的判别力——可用性稍低于目标就会大概率被拒收。
T ≈ [ (z₁₋α + z₁₋β) / (A₀ – A₁) ]² × A₀ × (1 – A₀) / MTBF
这意味着可用性目标的鉴别比 (A₀/A₁ 或 U₁/U₀) 越小(目标越接近限值),所需试验时间就越长——有时会昂贵到不切实际。合理设定 A₁ 是试验规划中最容易被低估的环节。
在二十余年的可靠性工程实践中,以下错误屡见不鲜:
基于 IEC 61070 的可用性思维方式,以下设计原则值得每一位系统工程师深思:
| 架构类型 | 系统可用性公式 (近似) | 示例 | 关键洞察 |
|---|---|---|---|
| 串联系统 | A_sys ≈ A₁ × A₂ × … × A_N | 10 个 A=0.999 的部件串联 → A_sys ≈ 0.990 | 串联越多,可用性越差。长链系统的可用性灾难 |
| 并联冗余 (1oo2) | A_sys ≈ 1 – (1-A)² | 双冗余 A=0.99 → A_sys ≈ 0.9999 | 冗余是最有效的可用性提升手段,但代价是成本翻倍 |
| k-out-of-n 表决 | A_sys ≈ Σ C(n,i)·A^i·(1-A)^{n-i} | 2oo3 表决: 3 个 A=0.99 → A_sys ≈ 0.9997 | 同时实现高可用和高安全性的经典方案 |
| 串联+并联混合 | 分块计算后串联 | 数据中心:供电 2N+网络双活+存储 RAID | 真实系统的可用性由最弱块决定,逐层分析是关键 |
Q1: IEC 61070 说的是”稳态”可用性,那系统的早期阶段(浴盆曲线的早期失效期)怎么处理?
IEC 61070 明确指出,试验应在系统完成老化/早期失效筛查 (Burn-in / Early Failure Screening) 之后、进入稳定运行阶段时进行。标准假设系统已经度过了浴盆曲线的”早期失效期”,故障率已趋于恒定。实际操作中,通常会在正式试验开始前设置一段”预调节期”(Pre-conditioning Period) 来消除早期失效数据对稳态判断的干扰。对于软件密集型系统,”早期失效”可能对应新版本上线后的磨合期,这期间的可用性数据不应纳入合规判定。
Q2: 对于运行中不断产生数据的在线系统,IEC 61070 的试验是否可以基于历史运营数据而非专门安排的试验?
可以,IEC 61070 允许使用现场数据的回顾性分析 (Retrospective Analysis of Field Data) 来代替专门的试验。但前提条件是:(a) 数据记录完整且可追溯——每次停机的起止时间、原因分类、修复动作都必须记录;(b) 运行条件在考察期内保持稳定——不能混入调试期、重大变更期或异常工况的数据;(c) 样本量足够——IEC 61070 提供的统计表格和 OC 曲线可以帮助评估已有数据是否具备统计说服力。实践中,现场数据的回顾性分析往往比专项试验更经济,但数据质量参差不齐是最大挑战。
Q3: MTBF 和 MTTR 是否必须服从指数分布,IEC 61070 才能使用?
IEC 61070 的标准试验方案主要基于指数分布假设(即故障间隔时间和修复时间均服从指数分布)。这是因为在稳态运行阶段,指数分布(恒定故障率)是对电子和机电系统最合理的近似。但如果实际数据表明分布严重偏离指数(例如机械磨损件的威布尔分布 β > 1),则需要采用非参数方法或基于特定分布的修正方案。IEC 61070 在附录中提供了偏离指数假设时的处理建议。关键原则是:如果分布不是指数型的,用基于指数假设的方法得出的置信区间可能过于乐观或过于保守。
Q4: IEC 61070 和常见的”可靠性鉴定试验”(如 IEC 60605) 有什么区别?
核心区别在于评估的维度不同:
IEC 60605 (可靠性试验) 关注的是”会不会坏” (MTBF),完全忽略维修时间的影响。它适用于研究系统固有的故障倾向。
IEC 61070 (可用性试验) 关注的是”坏了之后多久能恢复”与”多久坏一次”的综合效果。它适用于评价系统在真实运维环境下的整体服务能力。
一个直观的例子:两个系统 MTBF 都是 1000 小时,系统 A 每次故障需要 1 小时修复 (A = 99.9%),系统 B 每次需要 100 小时修复 (A = 90.9%)。在 IEC 60605 的视角下二者相同;在 IEC 61070 的视角下,系统 A 比系统 B 好一个数量级。对于最终用户来说,IEC 61070 的结论显然更有实际意义。