Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
FTA的思考方式与FMEA正好相反。FMEA问的是:”这个组件坏了会怎样?”(自底向上,归纳推理);而FTA问的是:”这个系统级故障是怎么发生的?“(自顶向下,演绎推理)。这种自顶向下的演绎逻辑使FTA特别适合在系统设计的早期阶段识别潜在的灾难性失效路径——你不需要知道所有组件的失效模式,只需要从你最关心的那个”不可接受的事件”出发,一路追问”为什么”即可。
IEC 61025将故障树定义为“条件或因素的有组织图形化表示,这些条件或因素导致或促成了一个已定义顶事件的发生”。一棵故障树的构建从一个预定义的顶事件(top event)开始,通过逻辑门将顶事件与中间事件(intermediate events)和基本事件(basic events)连接起来,形成一棵倒置的逻辑树。
根据IEC 61025的定义,故障树由以下几类关键元素构成:
(1) 顶事件 (Top Event / 3.2) — 被分析的 undesired 最终事件,位于故障树的顶端。这是整个分析的起点和焦点。例如:”主电源系统失效导致全厂停机”、”制动系统丧失减速能力”。
(2) 中间事件 (Intermediate Event / 3.11) — 既不是顶事件也不是基本事件,通常是一个或多个输入事件通过逻辑门组合后的结果,又是更上层事件的输入。
(3) 基本事件 (Basic Event / 3.9) — 位于故障树底部的、不再进一步分解的事件或状态。它代表分析的边界,通常对应具体的组件失效模式、人为错误或环境条件。基本事件的概率是可以直接获取的,如失效率、人为失误概率等。
(4) 未展开事件 (Undeveloped Event / 3.12) — 本可以进一步展开但由于缺乏信息、在其他分析中展开或作为商用现货(COTS)而不展开的事件。
(5) 逻辑门 (Gate / 3.5) — 描述输入事件与输出事件之间逻辑关系的符号。
逻辑门是故障树的语法骨架。IEC 61025在附录A中提供了完整的符号表。以下是最核心的逻辑门:
| 逻辑门 | 符号含义 | 输出事件发生条件 | 概率公式(独立事件) |
|---|---|---|---|
| OR门 | 只要任一输入事件发生,输出事件即发生 | A 或 B 或 C … 任一发生 | P = 1 – ∏(1-Pi) |
| AND门 | 所有输入事件同时发生,输出事件才发生 | A 且 B 且 C … 全部发生 | P = ∏ Pi |
| PAND门(优先AND) | 所有输入事件按特定顺序发生 | A 先于 B 发生 | 动态门,需顺序概率模型 |
| 表决门(Voting/K/N) | N个输入事件中有K个发生 | N中取K (如2/3表决) | 二项分布概率计算 |
| 异或门(XOR) | 恰好一个输入事件发生 | A发生或B发生,但不同时发生 | P = PA+PB-2PAPB |
| 禁止门(INHIBIT) | 条件事件发生且输入事件发生 | 输入事件+条件事件同时满足 | P = Pin × Pcond |
IEC 61025第7章详细描述了FTA的实施流程。这不是简单的”画树”过程,而是一个需要系统思维的工程分析活动:
(1) 确定分析范围 (Scope of Analysis) — 明确系统边界、分析深度(停在哪里算”基本事件”)、运行条件和假设。这一步决定了故障树的”分辨率”:太浅则遗漏关键原因,太深则树过于庞大不可管理。
(2) 系统熟悉 (System Familiarization) — 彻底理解系统设计,包括功能框图、接口定义、运行模式和边界条件。分析团队必须包含熟悉系统的设计工程师、可靠性工程师和系统工程师。IEC 61025明确强调,FTA是团队活动,依靠单一分析人员容易遗漏跨功能域的因果链。
(3) 定义顶事件 (Top Event Definition) — 精确描述要分析的undesired事件。标准强调顶事件必须有明确的定义边界,不能模糊。例如”系统失效”是一个不合格的顶事件;”主冷却回路在额定功率运行72小时内丧失循环能力”才是合格的顶事件。
(4) 故障树展开 (Fault Tree Development) — 从顶事件出发,逐步向下迭代:”什么直接原因会导致这个事件?这些原因是AND还是OR关系?”每一层回答这个问题,直到达到基本事件级别。
(5) 故障树构建 (Fault Tree Construction) — 使用标准化的图形符号绘制完整的故障树。每一层逻辑门下方的事件必须满足”即时因果”(immediate cause)原则——直接原因而非间接原因。
(6) 定性分析 — 找出所有最小割集(minimal cut sets),识别单点故障。最小割集是”导致顶事件发生的最少基本事件组合”——去掉其中任何一个事件,顶事件就不会发生。
(7) 定量分析 — 当基本事件概率已知时,自底向上计算每个中间事件和顶事件的发生概率。通过重要度分析(basic event importance measures)识别对顶事件贡献最大的基本事件,指导设计改进。
最小割集(Minimal Cut Set, MCS)是故障树定性分析中最重要的概念。IEC 61025定义割集(cut set)为”如果全部发生将导致顶事件的一组事件”,而最小割集是”导致顶事件发生所需的最少事件集合——其中任何一个事件不发生,顶事件就不会发生”。
理解最小割集的工程意义:
| 割集阶数 | 工程含义 | 设计响应 | 典型示例 |
|---|---|---|---|
| 1阶 (单事件) | 单点故障,无任何保护 | 必须消除:增加冗余或独立保护层 | 单路供电的紧急停机按钮 |
| 2阶 (双事件) | 需要两个独立事件同时发生 | 评估共因失效(CCF)可能性;如不可接受则增加多样性 | 主泵+备用泵同时失效(但若共用冷却水源则为CCF风险) |
| 3阶及以上 | 需要三个或更多独立事件 | 通常概率可接受,但仍需检查共同外部威胁 | 三个独立传感器同时漂移超限 |
当基本事件的概率数据可获取时(通过试验、现场数据、行业数据库如FMD/NPRD等),FTA可以进行定量分析。IEC 61025提供以下核心计算方法:
OR门概率(精确公式):
P(T) = 1 – ∏(1 – Pi)
对于低概率事件(P < 0.1),工程上常用稀有事件近似(Rare Event Approximation):P(T) ≈ ∑ Pi。但当割集存在重复事件时,精确计算需要使用Esary-Proschan方法或进行不相容化(disjointing)处理。IEC 61025附录B详细描述了不相容化过程。
AND门概率:
P(T) = ∏ Pi (假设各事件独立)
桥式电路——FTA中经典的复杂依赖案例: IEC 61025第7章(Figure 8-12)使用桥式电路作为案例,展示了当一个元件(中间桥臂)同时参与多个失效路径时,简单割集相乘会高估或低估真实概率,必须使用不相容化(disjointing)技术进行精确计算。
IEC 61025第5.4章明确讨论了FTA与其他可靠性技术的结合使用。这是工程实践中最重要的方法论决策——选择正确的分析工具。三种方法的关系可总结如下:
| 维度 | FTA (故障树分析) | FMEA (失效模式分析) | ETA (事件树分析) |
|---|---|---|---|
| 推理方向 | 自顶向下 (演绎 Deductive) | 自底向上 (归纳 Inductive) | 自左向右 (前向 Forward) |
| 起始点 | 系统级顶事件(后果) | 组件级失效模式(原因) | 引发事件(Initiating Event) |
| 核心问题 | “这个顶事件是怎么发生的?” | “这个组件坏了会怎样?” | “从这个触发事件开始,接下来会发生什么?” |
| 逻辑门 | AND/OR/PAND等 | 无逻辑门,逐项分析 | 分支逻辑(成功/失败) |
| 输出 | 最小割集、顶事件概率 | 失效影响列表、RPN排序 | 事故序列、各序列概率 |
| 适用场景 | 安全关键系统、多因素组合失效 | 设计评审、制造过程分析 | 事故演化、应急响应评估 |
| 优势 | 处理逻辑组合、定量概率 | 系统性、全面覆盖、易执行 | 处理时间序列、防御纵深分析 |
| 局限 | 构建复杂、易遗漏共因 | 难处理多失效组合 | 难处理依赖关系、分支爆炸 |
| IEC标准 | IEC 61025 | IEC 60812 | IEC 62502 (原IEC 60300-3-9部分) |
IEC 61025第5.4.1章明确指出,FTA和FMEA的组合使用”通常被行业特定标准推荐,特别是安全标准和交通运输标准”。两者之间的关系可以形象地理解为:
FTA(演绎) + FMEA(归纳) = 完整的失效分析闭环
具体互补体现在以下几个方面:
构建故障树时,最常见的质量缺陷是违反了“即时因果”(Immediate Cause)原则。IEC 61025要求每一层逻辑门的输入事件必须是输出事件的”直接原因”,不能跳级。
不合格示例:顶事件”发动机无法启动”的OR门下直接放置”火花塞老化”、”燃油泵故障”、”电池亏电”。虽然这些都是可能的原因,但它们不是”发动机无法启动”的直接原因——直接原因是”无点火”、”无燃油”、”无电力”。火花塞老化是”无点火”的子原因,应该在下层展开。
正确做法:每一层只回答一个问题:”什么直接导致了这个事件?”如果答案中包含了中间环节,说明你需要插入一个中间事件层。遵守这一原则产生的故障树层次清晰、逻辑连贯、便于审查。
重复事件(Repeated Event, IEC 61025 3.16)是指同一个事件作为多个不同上层事件的输入。在大型故障树中,这是极其常见的——一个电源模块可能同时给控制器、通信模块和传感器供电,一旦它失效,多个分支会同时受影响。
重复事件的处理是FTA定量分析中最复杂的问题之一。简单地将重复事件视为独立事件进行概率相乘,会导致:
IEC 61025附录B详细描述了不相容化(Disjointing)程序——通过布尔代数将含有重复事件的割集转化为互斥的、不含重复事件的最小割集,然后进行正确的概率计算。现代FTA软件(如Isograph、ReliaSoft、CAFTA等)可以自动处理这个过程,但工程师必须理解其原理才能正确解读结果。
IEC 61025指出,故障树的展开”应进行到能获得基本事件概率数据的层级”。实践中: