🌲 IEC 61025 故障树分析 (FTA):从顶事件到根本原因的系统化失效推理






IEC 61025 故障树分析 (FTA):从顶事件到根本原因的系统化失效推理


📖 标准概览
IEC 61025:2006 “Fault tree analysis (FTA)” 是国际电工委员会(IEC)发布的故障树分析国际标准,由IEC第56技术委员会(可信性)编制,为第二版(替代1990年初版)。FTA是一种自顶向下(top-down)的演绎式失效分析方法,从系统级的 undesirable 顶事件出发,逐层向下追溯导致该事件发生的所有直接原因及其逻辑组合,直至到达不再分解的基本事件。该标准广泛应用于核电站安全分析、航空航天系统设计、铁路信号系统、化工过程安全、医疗设备可靠性评估以及汽车功能安全(ISO 26262)等领域,是安全关键系统设计与评审的核心方法论工具。

1. 故障树分析基础:逻辑门、事件符号与树结构

1.1 FTA的核心思想:从”后果”反推”原因”

FTA的思考方式与FMEA正好相反。FMEA问的是:”这个组件坏了会怎样?”(自底向上,归纳推理);而FTA问的是:”这个系统级故障是怎么发生的?“(自顶向下,演绎推理)。这种自顶向下的演绎逻辑使FTA特别适合在系统设计的早期阶段识别潜在的灾难性失效路径——你不需要知道所有组件的失效模式,只需要从你最关心的那个”不可接受的事件”出发,一路追问”为什么”即可。

IEC 61025将故障树定义为“条件或因素的有组织图形化表示,这些条件或因素导致或促成了一个已定义顶事件的发生”。一棵故障树的构建从一个预定义的顶事件(top event)开始,通过逻辑门将顶事件与中间事件(intermediate events)和基本事件(basic events)连接起来,形成一棵倒置的逻辑树。

1.2 故障树的核心组成元素

根据IEC 61025的定义,故障树由以下几类关键元素构成:

(1) 顶事件 (Top Event / 3.2) — 被分析的 undesired 最终事件,位于故障树的顶端。这是整个分析的起点和焦点。例如:”主电源系统失效导致全厂停机”、”制动系统丧失减速能力”。
(2) 中间事件 (Intermediate Event / 3.11) — 既不是顶事件也不是基本事件,通常是一个或多个输入事件通过逻辑门组合后的结果,又是更上层事件的输入。
(3) 基本事件 (Basic Event / 3.9) — 位于故障树底部的、不再进一步分解的事件或状态。它代表分析的边界,通常对应具体的组件失效模式、人为错误或环境条件。基本事件的概率是可以直接获取的,如失效率、人为失误概率等。
(4) 未展开事件 (Undeveloped Event / 3.12) — 本可以进一步展开但由于缺乏信息、在其他分析中展开或作为商用现货(COTS)而不展开的事件。
(5) 逻辑门 (Gate / 3.5) — 描述输入事件与输出事件之间逻辑关系的符号。

1.3 关键逻辑门类型——故障树的”语法”

逻辑门是故障树的语法骨架。IEC 61025在附录A中提供了完整的符号表。以下是最核心的逻辑门:

表1: 故障树核心逻辑门 (IEC 61025 Annex A)
逻辑门 符号含义 输出事件发生条件 概率公式(独立事件)
OR门 只要任一输入事件发生,输出事件即发生 A 或 B 或 C … 任一发生 P = 1 – ∏(1-Pi)
AND门 所有输入事件同时发生,输出事件才发生 A 且 B 且 C … 全部发生 P = ∏ Pi
PAND门(优先AND) 所有输入事件按特定顺序发生 A 先于 B 发生 动态门,需顺序概率模型
表决门(Voting/K/N) N个输入事件中有K个发生 N中取K (如2/3表决) 二项分布概率计算
异或门(XOR) 恰好一个输入事件发生 A发生或B发生,但不同时发生 P = PA+PB-2PAPB
禁止门(INHIBIT) 条件事件发生且输入事件发生 输入事件+条件事件同时满足 P = Pin × Pcond
💡 工程洞察:OR门与AND门是可靠性的”阴阳”
OR门代表串联逻辑——任一个组件失效导致系统失效,降低了系统可靠性。AND门代表并联冗余逻辑——必须多个组件同时失效才导致系统失效,提升了系统可靠性。工程设计中,识别出OR门下隐藏的单点故障(3.13),并将关键路径的OR门转化为AND门(增加冗余),是最直接的可靠性改进策略。这也是为什么FTA不仅是”分析工具”而且是”设计优化工具”。
⚠️ 常见误区 #1:将”OR门”与”转移门”混淆
在大型故障树中,经常使用”转移门”(Transfer Gate)将一个子树连接到另一个位置,以避免重复绘制。许多初学者将转移门当作一个”事件入口”而非”逻辑连接”,导致子树中的OR逻辑被无意中扩展到了不应有的范围。标准做法是:转移符号必须明确标注转移源和目标,且转移的子树具有完整的逻辑门和事件结构,不能仅转移部分逻辑。

2. FTA方法论的完整流程:从系统熟悉到概率量化

2.1 FTA的七个核心步骤 (IEC 61025 Clause 7)

IEC 61025第7章详细描述了FTA的实施流程。这不是简单的”画树”过程,而是一个需要系统思维的工程分析活动:

(1) 确定分析范围 (Scope of Analysis) — 明确系统边界、分析深度(停在哪里算”基本事件”)、运行条件和假设。这一步决定了故障树的”分辨率”:太浅则遗漏关键原因,太深则树过于庞大不可管理。
(2) 系统熟悉 (System Familiarization) — 彻底理解系统设计,包括功能框图、接口定义、运行模式和边界条件。分析团队必须包含熟悉系统的设计工程师、可靠性工程师和系统工程师。IEC 61025明确强调,FTA是团队活动,依靠单一分析人员容易遗漏跨功能域的因果链。
(3) 定义顶事件 (Top Event Definition) — 精确描述要分析的undesired事件。标准强调顶事件必须有明确的定义边界,不能模糊。例如”系统失效”是一个不合格的顶事件;”主冷却回路在额定功率运行72小时内丧失循环能力”才是合格的顶事件。
(4) 故障树展开 (Fault Tree Development) — 从顶事件出发,逐步向下迭代:”什么直接原因会导致这个事件?这些原因是AND还是OR关系?”每一层回答这个问题,直到达到基本事件级别。
(5) 故障树构建 (Fault Tree Construction) — 使用标准化的图形符号绘制完整的故障树。每一层逻辑门下方的事件必须满足”即时因果”(immediate cause)原则——直接原因而非间接原因。
(6) 定性分析 — 找出所有最小割集(minimal cut sets),识别单点故障。最小割集是”导致顶事件发生的最少基本事件组合”——去掉其中任何一个事件,顶事件就不会发生。
(7) 定量分析 — 当基本事件概率已知时,自底向上计算每个中间事件和顶事件的发生概率。通过重要度分析(basic event importance measures)识别对顶事件贡献最大的基本事件,指导设计改进。

2.2 最小割集——FTA定性分析的核心输出

最小割集(Minimal Cut Set, MCS)是故障树定性分析中最重要的概念。IEC 61025定义割集(cut set)为”如果全部发生将导致顶事件的一组事件”,而最小割集是”导致顶事件发生所需的最少事件集合——其中任何一个事件不发生,顶事件就不会发生”。

理解最小割集的工程意义:

  • 一阶割集(单事件割集) = 单点故障。这个事件单独发生就足以导致系统失效,是最危险的。找到并消除所有一阶最小割集是安全关键系统设计的基本要求。
  • 二阶割集(双事件组合) = 需要两个事件同时发生。代表了一定的冗余保护,但如果两个事件有共同原因(common cause),分析结论将严重低估风险。
  • 高阶割集(三事件及以上) = 概率极低但绝非不可能。在核安全级系统中,三阶割集仍然是强制审查项。
表2: 最小割集与设计决策的对应关系
割集阶数 工程含义 设计响应 典型示例
1阶 (单事件) 单点故障,无任何保护 必须消除:增加冗余或独立保护层 单路供电的紧急停机按钮
2阶 (双事件) 需要两个独立事件同时发生 评估共因失效(CCF)可能性;如不可接受则增加多样性 主泵+备用泵同时失效(但若共用冷却水源则为CCF风险)
3阶及以上 需要三个或更多独立事件 通常概率可接受,但仍需检查共同外部威胁 三个独立传感器同时漂移超限

2.3 定量FTA——概率计算与重要度分析

当基本事件的概率数据可获取时(通过试验、现场数据、行业数据库如FMD/NPRD等),FTA可以进行定量分析。IEC 61025提供以下核心计算方法:

OR门概率(精确公式):

P(T) = 1 – ∏(1 – Pi)

对于低概率事件(P < 0.1),工程上常用稀有事件近似(Rare Event Approximation):P(T) ≈ ∑ Pi。但当割集存在重复事件时,精确计算需要使用Esary-Proschan方法或进行不相容化(disjointing)处理。IEC 61025附录B详细描述了不相容化过程。

AND门概率:

P(T) = ∏ Pi (假设各事件独立)

桥式电路——FTA中经典的复杂依赖案例: IEC 61025第7章(Figure 8-12)使用桥式电路作为案例,展示了当一个元件(中间桥臂)同时参与多个失效路径时,简单割集相乘会高估或低估真实概率,必须使用不相容化(disjointing)技术进行精确计算。

🛑 常见误区 #2:忽略共因失效(Common Cause Failure, CCF)
共因失效是FTA定量分析中最大的”隐形风险”。当故障树中有多个AND门(代表冗余保护)时,如果这些”冗余”通路共享一个共同原因——例如同一型号的元件、同一供应商、同一环境应力(温度/振动/EMI)——那么AND门下的事件不再是独立的。实际顶事件概率可能比独立假设下的计算结果高出数百到数千倍。IEC 61025 (3.14)明确指出,重复事件(repeated events)和共因事件(common cause events)必须在故障树中明确标注(使用特殊符号如菱形-diamond),并在定量计算中使用CCF因子(如beta因子模型、MGL方法)进行修正。这在核安全(如NUREG/CR-5485)和功能安全(ISO 26262-5, Annex D)中是强制性要求。

3. FTA vs FMEA vs ETA:三种可靠性分析的定位与互补

IEC 61025第5.4章明确讨论了FTA与其他可靠性技术的结合使用。这是工程实践中最重要的方法论决策——选择正确的分析工具。三种方法的关系可总结如下:

3.1 核心区别:推理方向与关注点

表3: FTA、FMEA与ETA三种分析方法的系统对比
维度 FTA (故障树分析) FMEA (失效模式分析) ETA (事件树分析)
推理方向 自顶向下 (演绎 Deductive) 自底向上 (归纳 Inductive) 自左向右 (前向 Forward)
起始点 系统级顶事件(后果) 组件级失效模式(原因) 引发事件(Initiating Event)
核心问题 “这个顶事件是怎么发生的?” “这个组件坏了会怎样?” “从这个触发事件开始,接下来会发生什么?”
逻辑门 AND/OR/PAND等 无逻辑门,逐项分析 分支逻辑(成功/失败)
输出 最小割集、顶事件概率 失效影响列表、RPN排序 事故序列、各序列概率
适用场景 安全关键系统、多因素组合失效 设计评审、制造过程分析 事故演化、应急响应评估
优势 处理逻辑组合、定量概率 系统性、全面覆盖、易执行 处理时间序列、防御纵深分析
局限 构建复杂、易遗漏共因 难处理多失效组合 难处理依赖关系、分支爆炸
IEC标准 IEC 61025 IEC 60812 IEC 62502 (原IEC 60300-3-9部分)

3.2 FTA与FMEA的”黄金搭档”关系

IEC 61025第5.4.1章明确指出,FTA和FMEA的组合使用”通常被行业特定标准推荐,特别是安全标准和交通运输标准”。两者之间的关系可以形象地理解为:

FTA(演绎) + FMEA(归纳) = 完整的失效分析闭环

具体互补体现在以下几个方面:

  • 一致性校验: FMEA中识别出的任何导致顶事件的单点失效,必须在FTA中作为一个一阶最小割集出现。反过来,FTA中发现的每个单点故障,也必须在FMEA中有所记录。这种交叉验证极大地提高了分析的完整性。
  • 覆盖互补: FMEA擅长穷举所有组件的单独失效模式,但难以处理多失效组合;FTA擅长处理逻辑组合和多重失效,但可能遗漏某些基本事件。两者叠加使用形成了完整的”安全论据”。
  • 分析先后: 实践中,先用FTA确定顶事件(不可接受的后果)及导致它的组合条件,再用FMEA系统性地分析可能导致这些条件的所有底层失效模式。最后通过一致性校验确保无遗漏。
🎓 工程实践智慧:FTA与FMEA的一致性校验
IEC 61025强调,一致性校验的价值”在两份分析由不同团队独立完成时达到最大”。对于安全完整性等级(SIL 3/4)或汽车安全完整性等级(ASIL C/D)的系统,强烈建议由不同的工程师或团队独立完成FTA和FMEA,然后进行交叉比对。任何不一致(如FTA发现了FMEA未列出的单点故障,或反之)都意味着其中一份分析存在遗漏,必须在设计冻结前解决。

4. 故障树构建实战:工程技巧与常见陷阱

4.1 “即时因果”原则——故障树质量的试金石

构建故障树时,最常见的质量缺陷是违反了“即时因果”(Immediate Cause)原则。IEC 61025要求每一层逻辑门的输入事件必须是输出事件的”直接原因”,不能跳级。

不合格示例:顶事件”发动机无法启动”的OR门下直接放置”火花塞老化”、”燃油泵故障”、”电池亏电”。虽然这些都是可能的原因,但它们不是”发动机无法启动”的直接原因——直接原因是”无点火”、”无燃油”、”无电力”。火花塞老化是”无点火”的子原因,应该在下层展开。

正确做法:每一层只回答一个问题:”什么直接导致了这个事件?”如果答案中包含了中间环节,说明你需要插入一个中间事件层。遵守这一原则产生的故障树层次清晰、逻辑连贯、便于审查。

4.2 识别重复事件——FTA中最被低估的风险

重复事件(Repeated Event, IEC 61025 3.16)是指同一个事件作为多个不同上层事件的输入。在大型故障树中,这是极其常见的——一个电源模块可能同时给控制器、通信模块和传感器供电,一旦它失效,多个分支会同时受影响。

重复事件的处理是FTA定量分析中最复杂的问题之一。简单地将重复事件视为独立事件进行概率相乘,会导致:

  • OR门:低估风险(重复事件引入虚假冗余)
  • AND门:高估风险(将同一个事件当作两个独立事件相乘)

IEC 61025附录B详细描述了不相容化(Disjointing)程序——通过布尔代数将含有重复事件的割集转化为互斥的、不含重复事件的最小割集,然后进行正确的概率计算。现代FTA软件(如Isograph、ReliaSoft、CAFTA等)可以自动处理这个过程,但工程师必须理解其原理才能正确解读结果。

4.3 故障树的深度——何时停止展开

IEC 61025指出,故障树的展开”应进行到能获得基本事件概率数据的层级”。实践中:

  • 不应展开到无法获取概率的层级——例如将”二极管短路”展开为”PN结金属迁移”,除非你的组织有半导体失效机制的详细概率数据库。
  • 不应在仍可获取概率的层级停止——例如将”电源模块失效”作为基本事件,而实际上你有电源模块内部各组件(电容、变压器、开关管)的独立失效率数据。
  • 商用现货(COTS)是不展开的正当理由——当你从供应商获得的是一个整机模块的失效率(如MTBF=100,000小时),将其作为基本事件是合理的,标注为”未展开事件”。
⚠️ 常见误区 #3:轻视系统熟悉阶段、直接画树
IEC 61025将”系统熟悉(System Familiarization)”列为FTA的独立且必经步骤。但在实践中,许多工程师跳过这一步,直接开始画树——这类似于”还没读完电路图就开始焊接”。系统熟悉阶段需要收集和审查:功能框图、接口定义文档(ICD)、运行剖面(Operational Profile)、历史失效数据、环境条件规范、维修策略、以及已有的FMEA/ETA结果。没有这个基础,故障树几乎必然会遗漏关键的因果链。标准建议系统熟悉阶段应至少包括一次跨功能团队的系统走查。

5. 常见问题 (FAQ)

Q1: FTA和FMEA应该先做哪一个?可不可以只做一个?
FTA和FMEA是互补关系,而非先后关系。对于安全关键系统(SIL ≥ 2或ASIL C/D),绝大多数行业标准(如IEC 61508、ISO 26262、ARP4761)要求同时提供FTA和FMEA,因为它们分别覆盖了”组合失效”和”单点失效”两个不同的分析空间。实践中,可以先做FTA确定高风险顶事件及其最小割集,再用FMEA穷举可能的基本事件;或者反过来,先用FMEA建立完整的基本事件库,再用FTA建立因果逻辑链。只做FTA可能遗漏某些未预期的基本事件;只做FMEA则无法正确处理多失效组合。
Q2: 故障树应该画多深才算充分?什么时候可以停?
IEC 61025给出了三个停止规则:(1) 当事件的概率可以直接获取时——无论是通过试验数据、现场统计还是供应商提供的失效率;(2) 当进一步展开不会带来更精细的分析价值时——例如事件本身已经是最小可替换单元(LRU);(3) 当事件被标记为”未展开事件”时——例如COTS组件或在其他分析中处理的子树。一个实用的判断标准是:树的总层数通常不超过6-8层,超过这个深度,应考虑使用子树(Sub-tree)或转移门进行模块化管理。
Q3: 如果没有基本事件的概率数据,能不能做定量FTA?
没有精确的概率数据,定量FTA的科学价值大打折扣。但IEC 61025提供了两种替代方案:(1) 定性排序——使用描述性概率标签如”极可能”、”很可能”、”中等概率”、”低概率”、”极稀罕”代替具体数值,用于初步筛选关键割集;(2) 敏感性分析——给基本事件分配假设的概率范围,观察顶事件概率对每个基本事件变化的敏感度,即使绝对值不精确,敏感性排名通常是有工程价值的。对于新设计无现场数据的产品,行业数据库(如FMD-2016、NPRD-2016、MIL-HDBK-217F)可作为初始数值来源。
Q4: 成功率树(Success Tree Analysis, STA)与故障树(FTA)是什么关系?
IEC 61025指出,当顶事件被定义为成功而非失效时,故障树就变成了成功率树(STA)。两者在数学上互补——将故障树的所有AND门替换为OR门(反之亦然),并将事件替换为其逻辑补集,即可得到对应的成功率树。但STA在工程实践中使用较少,因为大多数安全分析的目标是”防止坏事发生”,而非”确保好事发生”。STA主要用于可用度分析——从必须同时”可运行”的条件出发,分析系统保持可用状态所需的逻辑组合。在核电站概率安全评估(PSA)中,事件树与故障树的结合使用,本质上是将一组成功率树(每个分支节点)嵌入到了前向的事件演化序列中。
💡 总结: IEC 61025:2006为故障树分析提供了完整的国际标准化方法论。FTA的真正价值不在于绘制一棵漂亮的逻辑树,而在于它迫使工程师进行结构化的”失效推理”——从最不可接受的后果出发,系统性地反向追溯每一层因果关系,直到找到所有可能的根本原因组合。与FMEA的归纳式思考相结合,FTA构成了安全关键工程设计中不可或缺的”双引擎”。正如IEC 61025所强调的:”演绎与归纳推理的联合使用,被认为是确保分析完整性的有力论据。”在系统日益复杂、功能安全要求日益严格的当下,掌握FTA不仅是可靠性工程师的核心素养,更是每一位安全关键系统设计师的基本功。
© 2026 TNLab • 参考 IEC 61025:2006 Fault tree analysis (FTA) • 版权所有


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注