什么是故障树分析以及如何执行
如果您有能力展望未来并在故障发生之前识别系统中的故障,这不是很神奇吗?那将是何等的超能力!幸运的是,你不需要超能力。你有故障树分析。
故障树分析是查找资产故障和其他重要事件的根本原因的众多技术之一。许多不同的公司都在使用它来提高系统可靠性。
我们将向您介绍故障树分析背后的历史以及何时使用它。很快,您将对不同的类型、符号和方法以及有用的软件解决方案有深入的了解,为您的成功做好准备。
什么是故障树分析?
故障树分析 ( 自由贸易协定 ) 是一种通过图形和数学表示系统本身来分析系统或机器故障可能性的工具。这是一种自上而下的方法,通过根本原因分析过程对潜在故障的根本原因进行逆向工程。
换句话说,如果您问自己“这台机器发生故障的可能性有多大”,故障树分析将帮助您回答这个问题。
FTA 复制了故障在系统中的移动方式。它创建了一个关于组件故障如何导致系统范围故障的图形模型。这些模型可帮助可靠性工程师创建具有适当冗余的定义明确的系统,以防止组件故障级联到系统范围的故障——换句话说,创建更具容错性的系统。
即使这个过程听起来像火箭科学,但 FTA 中使用的术语非常简单。
用于对 FTA 建模的分析图看起来像树,因此(不出所料)它们被称为故障树 .故障树图将帮助您了解一个或多个小故障事件如何导致灾难性故障。这将有助于您在未来选择正确的纠正和预防措施。
故障树分析背后的历史
1962 年,贝尔电话实验室为美国空军的洲际弹道导弹 (ICBM) 系统设计了保障措施,称为民兵系统。对于这种复杂而危险的技术,安全性至关重要。为了改进可靠性分析,贝尔实验室创建了故障树分析方法。
这种新方法添加了一个图形元素,有助于可视化故障模式和影响分析 (FMEA) 的概念——一种类似但非常相关的预防故障的方法。后来,波音公司采用了 FTA,使其成为当今广泛用于分析关键系统故障可能性的流行分析方法。
这种严格的分析可确保复杂系统安全可靠地运行,使飞机飞行、汽车行驶以及我们周围的世界尽可能高效地运行。很棒吧!?
通过GIPHY
何时使用故障树分析
故障树分析 可以在系统设计时或运行过程中完成 (预测潜在的故障并采取预防措施)。目标是在实际发生之前提升极有可能发生故障或导致重大事故的子系统和组件。
它可以单独实施或作为 FMEA 分析的补充。
谁使用 FTA,为什么?
一般来说,故障树分析有助于防止未来发生故障并确定新工作流程、产品和服务的关键关注领域。这就是为什么各个行业都使用 FTA 作为安全分析和风险缓解方法的原因,例如:
- 航空航天、航空和国防业务
- 发电和系统安全
- 网络安全系统分析
- 特种化学品制造
- 医疗保健和制药
- 环境研究和灾害管理
注意到这里的主题了吗?如果出现问题,这些行业可能会对人们的生活产生重大影响。当飞机坠毁或医疗设备无法正常工作时,生命损失或其他悲惨事件的风险很高。 FTA 是这些行业用来保证高风险活动安全的工具。
为什么故障树分析值得付出努力
FTA 可以是一个包含大量数学和解决问题的技术主题。但是,了解它并将其应用于您的业务有一些显着的好处。它:
- 协助分析、理解和改进您的系统
- 让您以非常系统的方式一次解决一个故障
- 对多个系统及其相互关系进行评估
- 关注故障的根本原因,而不仅仅是修复
- 根据故障率和导致灾难性故障的问题确定维修的优先级
- 根据每个系统的故障概率帮助设计和计划维护
- 考虑人为错误
有了所有这些好处,将 FTA 带入您的分析工具箱是有意义的。有了它,您就有能力看到未来并预测事物。你是一个全能的演绎法师!
故障树分析符号和结构
自由贸易协定 通过建立故障树来执行 .故障树有一套标准的符号和命名规则,用于跨工厂和行业。
故障树是一个有向无环图(DAG)(意思是,你将从头到尾从一个方向阅读它),它显示了一系列活动之间的流程和关系。活动被归类为事件 或门 .
事件符号
事件发生在系统或流程中,可能导致或促成故障,例如单个组件的故障。我们已经描述了下面故障树中出现的事件。事件符号将只有一个输入和一个输出。
以下是每个事件含义的简短说明
- 热门活动 (TE): 这是故障树顶部的事件,也是分析的主题。通常是灾难性事件导致系统范围的中断。一个矩形代表顶部事件。它有输入但没有输出,因为它是树中一系列事件的最终顶点或结束。
- 基本事件 (比利时): 代表传播到系统链上以导致顶级事件的根本原因事件。 BE 由一个没有任何输入的圆圈表示。这是相反的,位于顶部事件的故障树的另一端。
- 中间事件: 这些是由一个或多个其他事件引起的事件。 BE 导致中间事件,最终导致 TE。中间事件由具有输入和输出的矩形表示。
- 传输事件: 当故障树太大而无法容纳在论文中时,可以创建转移事件。这样,我们可以用单个符号替换故障树的很大一部分,并在单独的图表上详细说明接下来的内容。三角形代表传输事件。转出事件将有一个三角形,三角形的右侧有输出。传输事件将输入到三角形的顶部。
- 欠发达的事件: 有时,发生的事件不是基本的,但没有足够的信息来开发子树。这些事件被标记为欠发达事件。未开发的事件由菱形或菱形符号表示。
- 条件事件 :条件事件是作为后面提到的 INHIBIT 门的条件的事件。椭圆符号代表条件事件。
- 家庭活动: 通常预期会发生的外部事件。这些事件可能发生也可能不发生,因此它们的概率分别为 1 或 0。
门符号
门,有时也称为逻辑门,代表故障如何在系统中传播。有时,单个事件可能会导致顶级事件(即灾难性故障)。其他时候,两个或多个不同事件的组合可能导致顶级事件。这就是布尔逻辑概念的用武之地。
门代表布尔逻辑运算符(AND、OR、UNION、NOT 等)并显示事件如何组合导致失败。每个门只有一个输出事件,但可以有一个或多个输入事件。
绘制故障树中最常用的门描述如下:
- 与门: 这个门可以有任意数量的输入事件。它所连接的输出事件仅在所有 输入事件 发生。 AND 门有一个圆形的顶部,输出是从顶部出来的,如图所示。
- 优先与门 : 输出事件仅在所有时发生 输入事件 以特定的顺序发生 .它看起来与 AND 门非常相似,只是在底部添加了一行。
- 或门 : 输出事件将发生如果任何一个或多个 输入事件 发生 .或门的符号将有一个尖端,输出出现的地方。另一端弯曲并连接到输入端,看起来有点像火箭。
- 异或门: 一个输出只有在恰好一个输入元素出现时才会出现 .如果您尝试在标准 OR 门内绘制一个三角形,效果就会如此。
- k/N 或投票门: 对于这个门,将有一个‘N’数量的 输入事件 和一个 输出事件 .如果发生“k”个输入事件,则将发生输出事件。它看起来类似于 OR 门,在底部写有“k/N”。
- 禁止门 : 与与门类似,输出事件将发生在 输入事件 发生,条件事件也发生。 INHIBIT 门的符号是六边形。输入事件直接连接在门的下方,条件事件连接到门的右侧。与所有其他符号一样,顶部是输出。
故障树分析的类型
标准故障树分析并不是唯一可用的方法。已经为特定用例和行业开发了 FTA 的其他扩展。这些扩展将能够将标准故障树不易表达的特征可视化。其中一些是:
- 动态 自由贸易协定 :动态故障树 (DFT) 通过对复杂系统组件的行为和交互进行建模来扩展标准故障树。
- 可修复 自由贸易协定 :可修复故障树 (RFT) 通过引入描述系统组件的复杂相关修复的可能性来增强 FTA 模型。
- 扩展 自由贸易协定 :考虑多状态分量和随机概率。
- 模糊 自由贸易协定 :使用称为模糊集理论的复杂数学概念将难以预测的不可靠因素(如风或天气)考虑在内。
- 状态事件 自由贸易协定 :SEFT 用于分析普通故障树无法建模的动态行为。
一般来说,FTA 分为两类: 定性 和定量 .
每次都执行定性分析,而在您知道故障树中事件的概率的情况下,可以将定量分析作为附加项进行。让我们更深入地了解它们中的每一个。
定性自由贸易协定
定性 FTA 用于深入了解故障树的结构以分析系统的漏洞。进行定性故障树分析的方法有很多种,例如:
- 最小割集 (MCS) 帮助识别系统的漏洞。如果 FT 包含少量组件或一组极有可能发生故障的元素,则系统将被视为不可靠。 MCS 在故障树中识别这些元素集。如果您可以降低某些组件的故障概率或增加冗余,您将提高系统的可靠性。
- 最小路径集 (MPS) 将帮助您确定系统的稳健性。它试图确定可以保持系统功能的最小组件集。确定这些元素后,您可以花时间努力降低它们失败的可能性。这增加了系统的整体可靠性。
- 常见原因 失败 (CCF) 确定单个元素是否会导致多个故障。通过 CCF 确定的组件被视为关键组件。您的团队需要确保定期检查和更换这些组件(必要时)。像 Limble 这样的计算机化维护管理系统 (CMMS) 可以计划和安排这些关键组件的维护。
定量自由贸易协定
定量 FTA 可用于计算您正在分析的故障的实际概率。分配失败的数字概率将帮助您更好地了解风险并确定其优先级。
定量 FTA 的结果可以采用随机或重要性度量的形式:
- 随机度量 给你系统失败的概率。
- 重要措施 分配割集或路径对整个系统可靠性的重要性级别。
当您知道基本事件的概率时,您可以根据连接它们的门轻松计算中间事件的概率。最常见的门是与门和或门。这是一个简单的例子。
定量FTA方法示例
这里,A、B、C、D 是基本事件。 E 是中间事件,TE 是顶级事件。中间事件 E 使用与门连接到基本事件 A、B 和 C。 A、B 和 C 必须失败才能使中间事件 E 发生。 A、B 和 C 的失败概率是已知的。因此:
顶事件失败TE是通过OR门连接E和D来达到的。 E本身就是一个失效事件,基本事件D发生的概率是已知的。
使用定性 FTA 方法可以像这样计算顶事件故障的概率。
进行故障树分析时可以遵循的步骤
我们已经制定了完成故障树分析应采取的一般步骤。
第 1 步:建立多元化的团队
在处理复杂系统时,您希望房间中有不同的声音。
该领域经验丰富的专业人士将能够从他们的职业生涯中参考过去的经验。他们还将了解对他们影响最大的系统技术方面。其他技术知识较少的团队成员可以通过提出开箱即用的想法和其他有用的信息来做出贡献。
头脑风暴会议和会议需要一位领导者,该领导者具有执行 FTA 的经验。任何FTA团队都需要各自领域的工程师、工业工程师和系统设计专家。
第 2 步:确定失败原因
FTA 自上而下运作。从最重要的事件开始,然后尝试确定可能导致或促成该事件的各种故障。如果你继续挖掘每个事件的基础,它最终会引导你找到根本原因(现在这就是我们所说的弄脏你的手!)。您将留下一棵美丽的故障树。
必须定义潜在故障、它们的特征、持续时间以及故障的不同影响,才能开始和完成流程。 以人流量大的区域或工厂的防火门为例。
这些门一直保持打开状态,直到断电或触发火警。如果火警有故障,接线有问题,备用电池电量不足,或者有人篡改了它。警报会触发门在不应该关闭时关闭。导致低级别的失败,但可能会导致巨大的挫败感并中断整个组织。
第 3 步:了解系统的内部运作
执行 FTA 的团队需要对系统的内部运作有深入的了解。在系统级别工作的工程师将对一切工作方式以及您希望避免哪些故障有很好的了解。然后其他团队成员可以提出问题,从而导致值得探索的失败原因的扩展列表。
应该由具有系统知识和专业知识的人负责指导讨论。目标是很好地掌握系统的需求、连接和依赖关系。
您的团队应收集系统原理图、不同组件的规格以及其他可用的制造商信息。如果您使用 Limble CMMS,只需按一下按钮即可获得这些资产规格。研究这些材料应该可以理解每个子系统和组件是如何相互连接的。
第四步:绘制FTA图
一旦团队了解了系统的内部工作原理,下一步就是使用布尔逻辑以图形方式呈现系统的功能图。 使用上面的故障树符号和结构,您的团队可以绘制系统的图形表示以及它们是如何连接的。
第 5 步:确定 MCS、MPS 或 CCF
故障树完成后,您的团队可以根据他们想要完成的任务确定 MCS、MPS 或 CCF。
- MCS 或 最小割集 被识别以了解系统中最脆弱的部分。
- MPS 或最小路径集 决心确定保持运行所需的核心组件和子系统。
- CCF 标识导致最大失败次数的组件 .
你首先执行 FTA 的原因将决定团队是否需要找到 MCS、MPS、CCF 或三者的组合。
可选步骤:评估失败的概率
通常情况下,您会发现可能导致相同故障事件的多种途径。对于一个庞大的系统,一次解决所有故障原因几乎是不可能的。
为了确定首先要解决的事件的优先级,团队可以计算不同关键集的每个故障的概率。 具有最高失败机会的关键集应该被赋予最高优先级。
这是一个可选但很有价值的步骤。如果您知道每次失败的概率,那么花时间使用它们将是值得的!
第 6 步:制定风险缓解策略
现在是时候使用您的故障树分析来最大程度地降低故障风险了。
- 必须高度重视保护 MPS(保持系统运行的最少组件集)。
- 必须为 CCF 制定严格的维护计划,因为它们可能会导致多种问题。
一种潜在的风险缓解策略,特别是对于 CCF,是 预防性维护 。
像 Limble 这样的 CMMS 系统可以帮助您确保遵守所需的维护计划。这包括遵循备件管理的最佳实践,因此维护团队始终有备件库存。必须努力将失败的可能性降到最低。
故障树分析示例
以下是故障树分析的两个不同示例,以帮助描绘流程的工作原理。
汽车无法启动
无法启动的汽车的 FTA 示例
*我们在下面给出的解释与上面显示的 FTA 不直接匹配。我们想给出一个比“把你的脚从刹车上移开”来启动汽车更实际的解释 🙂
某天早上你醒来,准备上班。你跳上你的车,转动钥匙,然后——什么都没有。您的车将无法启动。它甚至没有翻身。
了解一两件事关于汽车,你跳下车,打开引擎盖检查电池。接下来,您在回到汽车之前检查油量表以确保您没有耗尽油量,以确保灯没有过夜。
在此示例中,汽车未启动是故障或顶级事件 (TE)。汽车无法启动的三个选项都由 OR 门连接,这意味着任何一个或三者的组合都可能导致车辆无法启动。
更进一步,当您检查电池时,您会发现一些可能导致故障的因素。电池老化需要更换,或者电池没电需要跳槽。下一个要问的问题是为什么电池没电了。如果前灯一直亮着,您的下一个任务是确定将来如何避免这种情况?下车前一定要检查一下。
假设您要计算故障概率。在这种情况下,您需要为事件分配一个表示发生概率的数字,然后使用定性 FTA 方法来计算顶事件故障。
服务器出现灾难性故障
这个例子比上一个更具技术性。假设您有一台存储关键数据的服务器,但它遇到了灾难性故障。
服务器故障的故障树分析示例
以下是对某些元素的快速解释:
- B 是非冗余系统总线。
- PS 是服务器的电源。
- C1 和 C2 是服务器的两个冗余中央处理器 (CPU),这意味着两个 CPU 中的一个可能会发生故障而不会导致整个系统故障。
- M1、M2 和 M3 是可在两个 CPU 之间共享的内存组件。
该故障树描绘了顶级事件(系统故障)发生的路径、割集和概率。</P>
故障从基本事件通过门 G1-G6 传播到顶级事件。 G1门是一个INHIBIT门,条件是系统只有在使用时才会发生故障。这意味着可以在为维护分配的预定停机时间内修复故障。门 G2 表示基本事件 B 的故障或子系统的故障传播到 G3。仅当两个 CPU 子系统(带有 C1 和 C2)都发生故障时,G3 门才会发生故障。
每个 CPU 子系统由电源 (PS)、CPU(C1 或 C2)和通过 G6 传播的内存组件组成。如果电源、CPU 或内存组件出现故障,每个 CPU 子系统都会出现故障。只有当两个 CPU 子系统都发生故障时,才会发生以上级别的故障。 G6 是一个投票门,如果要传播失败,三个内存组件中至少有两个必须失败。
系统的布尔表达式如下(∩代表布尔运算符“联合”,基本上是两个组件函数连接或重叠的地方):
- G1 =U∩G2
- G2 =B∩G3
将两者结合起来得到我们:
- G1 =U∩(B∩G3)
- G1 =(U ∩ B) ∪ (U ∩ G3)
您可以以这种方式继续,直到消除了所有中间事件,只剩下基本事件才能使您达到最小割集。这是自上而下的方法。
由于没有说明基本事件的概率,因此无法进行定量分析。
如果我们不能满足您对逻辑门和逻辑图的渴望,您可以在此处找到大量其他 FTA 示例。
故障树分析与其他分析方法的比较
FTA 并不是唯一的分析方法。让我们看看其他几个,看看它们如何比较。
FMEA
FTA 使用自上而下的方法来评估故障点,故障模式 和效果分析或 FMEA 使用自下而上的方法。它质疑可能导致失败的每个步骤中可能出现的问题,而不是首先查看失败。
此外,FMEA 不像 FTA 那样关注不同事件或条件事件之间的关系。因此,FTA是一个更复杂但更透彻的分析。
FMECA
失败模式 影响和关键性分析 (FMECA) 很容易掌握。它类似于 FMEA,但它增加了关键性分析或排名列表。 FMEA 查看一长串“假设” FMECA 允许您对失败进行排名,以便您可以更好地计划和确定工作的优先级。
预计到达时间
事件树 分析重点 并以非常直接的方式回答特定问题。此外,它没有故障树分析的一般用途。一般用于金融行业。
使用 FTA 软件简化流程
大型复杂系统的 FTA 很快就会变得很大,以至于无法在单个页面或白板上绘制。您可以通过使用久经考验的真实传输元素来解决此问题。然而,即使有了它们,图表也会变得太大而无法处理、阅读和理解。故障树分析软件是此类问题的绝佳解决方案。
除了简化图形表示之外,一些应用程序还具有可以自动识别 FTA 定量方面的算法,如 MCS、MPS 和 CCF。如果您知道基本事件的故障概率,则可以通过单击按钮来计算顶级事件和子系统故障的概率。
以下是一些您可以尝试的系统:
- 视觉范例:功能丰富的 FTA 软件,可免费试用。
- Blocksim:FTA 软件,是 ReliaSoft 可靠性软件应用程序套件的一部分。
- ALD 故障树分析器:基于云的免费 FTA 软件。
这些绝不是所有可用的解决方案,只是更受欢迎的解决方案。有许多具有适合不同用途的附加功能。货比三家,根据您的特定目的和行业找到适合您的产品。
其他资源
如您所知,在开发故障树分析过程方面进行了大量研究和专业知识。如果您想更深入地研究这个主题,请查看以下其他资源:
- 书籍:Clifton A Ericson II 的故障树分析入门
- 书籍:Gerardus Blokdyk 所著的故障树分析完整指南
- Coursera 关于 FTA 的讲座
- IIT Kharagpur 工业 Ans 系统工程系在 YouTube 上的 FTA 讲座
- 工程咨询和安全培训公司 xSeriCon 在 Youtube 上的另一场 FTA 讲座。
总结一下
故障树分析当然可能很复杂。如果你把合适的团队聚集在一起并充分练习,你会开始觉得你可以展望未来并预测失败及其原因。您将成为将故障修复计划到预定维护停机时间的向导,并让您的团队积极主动地工作而不是被动工作。
通过GIPHY
在 Limble,我们随时为您提供支持。我们的 CMMS 系统将包含您和您的团队有效构建 FTA、管理活动以降低风险等所需的所有信息。我们的使命是让您的工作尽可能简单和精简。如有问题,请联系我们,或了解我们的 CMMS 如何为您提供支持。
设备保养维修