可靠性工程 101:定义、目标、技术
您如何评价您购买的产品的质量?
工厂的传统质量控制将包括执行预定义的检查和测试。如果产品满足设定要求,则认为可以使用 .但是,如果您在保修期到期之前不得不进行两次或多次回收过程,您永远不会说您购买了优质产品。
可靠性和可靠性工程 通过在质量方程中加入时间维度,帮助我们量化产品质量。换句话说,我们不再只是想知道产品在购买时是否可以执行其预期功能。相反,我们希望确保产品在正常情况下尽可能长时间地工作而不会出现重大故障。
可靠性工程不仅可以帮助组织生产更可靠的产品,还可以告知维护团队如何维护它们以增加 MTBF(平均故障间隔时间)和资产寿命。
如果您有兴趣了解更多信息,在本文的续篇中,我们将讨论:
- 可靠性的概念
- 可靠性工程的核心原则
- 可靠性评估的基础知识
- 以及可靠性工程师如何提高设备可靠性
什么是可靠性?
可靠性是一个术语,用于描述组件或系统在特定时间段内满足特定性能标准的能力,假设正常运行条件。
换个角度来看,如果我们有两个在相同条件下运行的系统,那么运行时间更长、故障更少的系统就是更可靠的系统。
由于没有人能够预测未来并保证产品在恰好 X 小时的使用时间内不会出现故障,计算可靠性 带有一定程度的不确定性,以概率的形式表示 .除其他外,我们可以使用可靠性计算来估计系统在使用 x 小时或几天后正常工作的可能性。自然地,任何系统的可靠性在开始时都会很高,随着时间的推移而下降。
可靠性常常与耐用性、质量和可用性相混淆。虽然概念相似,但不应互换使用。这是每个的简短解释。
可靠性与耐用性
耐用性可以定义为物理产品在其设计生命周期内面临正常运行挑战时,无需过度维护或维修即可保持功能正常的能力(从 Tim Cooper 窃取的定义)。
可靠性和耐用性之间的主要区别在于,耐用性主要与产品在发生故障后能够持续使用多久幸存 ,而可靠性正在努力减少这些故障的总数和频率。
此外,耐久性组件用于描述物理项目的特性,而可靠性也可用于虚拟系统。
根据产品及其应用领域的不同,耐用性可以用使用小时数、操作周期数或存在年数来表示。
可靠性与质量
质量是一个很难定义的概念。描述它的一种流行方法是查看影响产品质量的因素。这就引出了质量的八个维度的概念。
图>这实际上是区分可靠性和质量的一种简单方法,因为我们可以将可靠性(如果仔细观察的话,耐用性)视为质量的一个维度。
如果我们将可靠性作为一个独立的概念,另一种看待它们之间关系的方式是说一个可靠的系统是一个能够随着时间的推移保持其质量的系统 .
可靠性与可用性
可用性显示系统可用(完全可操作)执行其设计任务的时间百分比。
这个概念在 IT 中经常被用来描述云基础设施的可用性。可用性最高的系统在 99.99% 范围内(这意味着服务/系统全年只有约 52 分钟不可用;通常只是为了执行定期维护)。
可用性受可靠性和可维护性的影响。更可靠的系统将经历更少的故障,这将提高其可用性。同样,执行定期维护的速度越快,停机时间就越短,从而再次提高可用性。
什么是可靠性工程?
可靠性工程是指系统地应用最佳工程实践和技术,以具有成本效益的方式制造更可靠的产品 .可靠性工程方法可以应用于整个产品生命周期:从设计和制造到操作和维护。
话虽如此,可靠性工程的主要价值在于及早发现可能的可靠性问题。如果我们在产品生命周期的早期阶段(如设计阶段)发现可靠性问题,我们可以极大地降低未来成本(即,无需在产品上市后进行重大的重新设计)。这个想法如下图所示。
可靠性工程的目标如下:
- 利用工程知识和技术来防止某些故障模式并降低故障的可能性和频率。
- 识别并纠正确实发生故障的原因,尽管已努力防止它们发生。
- 确定处理确实发生的故障(如果其原因尚未纠正)的方法。
- 应用方法来估计新设计的可能可靠性和分析可靠性数据。
如果您更仔细地查看列表,您将看到目标的排序方式遵循不同可靠性方法应用的自然进程。如果可以通过简单的设计更改来防止其中一些故障,那么尝试为所有已识别故障添加冗余是没有意义的。换句话说,上面的列表代表应该按顺序执行的步骤 以确保以具有成本效益的方式应用可靠性实践。
可靠性评估的基础
可靠性评估的最终目标是获得一组可靠的定性和定量证据 使用我们的组件/系统不会带来不可接受的风险 .它是可靠性工程的组成部分。
在这种情况下,风险可以定义为失败概率的组合 (失败发生的可能性有多大)和失败严重性 (故障的后果是什么;可能包括安全风险、潜在的二次损坏、备件和人工成本、生产损失等)。
了解故障机制和故障模式
在原因和失败之间划清界限并不总是那么容易。如果不是这种情况,则几乎不需要可靠性工程师和故障分析。
为了充分理解故障模式和故障机制以有效解决它们,需要将复杂的系统“分解”为多个组件。通过这种方式,您可以在个人层面上分析它们,也可以根据它们之间的交互方式进行分析。
除了上述所有内容之外,系统与其用户和环境的交互方式是另一个需要添加到需要考虑的事项列表的元素,因为误用和恶劣的工作条件会降低产品的可靠性。
可靠性工程中使用的常见任务和技术
根据系统的复杂程度和我们正在研究的系统类型,有多种技术和任务可以作为我们可靠性工程工作的一部分进行应用:
- 根本原因分析 (RCA)
- 以可靠性为中心的维护 (RCM)
- FMEA 和 FMECA
- 设计 FMEA 和流程 FMEA
- 失效物理 (PoF)
- 内置自检
- 可靠性块分析
- 现场数据分析
- 故障树分析
- 消除单点故障 (SPOF)
- 人为错误分析
- 操作危害分析
- 查看维护历史以分析故障率并收集故障数据
- 测量系统/组件在压力下的表现的各种数据收集测试
- …
通过使用所有这些措施,我们可以找到系统的弱点,并了解这些弱点导致故障的可能性有多大。如果感知到的风险足够高,我们必须通过纠正措施来处理它们。常见的解决方案以设计更改的形式出现 (例如添加冗余)、检测控制、维护指南和用户培训 .
量化可靠性
正如我们在本文的介绍中提到的,可靠性通常是机会(概率)的游戏。由于您正在处理百分比和统计数据来定义风险,因此整个团队在同一页面上并就他们试图达到的可接受风险水平达成一致非常重要。
这就是为什么在描述问题和提出解决方案时使用精确的语言非常重要。此外,由于统计数据不完整和其他不确定性,一些可靠性专家建议关注解决方案而不是失败机会。
对于零件/系统故障,可靠性工程师应该更多地关注“为什么和如何”,而不是预测“何时”。了解故障发生的“原因”(例如,由于组件应力过大或制造问题)比量化“何时”可能发生故障(例如,通过确定 MTBF)更有可能改进所使用的设计和流程)。为此,首先需要对与部件/系统相关的可靠性危险进行分类和排序(如果可能,基于某种形式的定性和定量逻辑),以便进行更有效的评估和最终改进。
奥康纳、帕特里克 D. T. (2002)、 实用可靠性工程
可靠性工程师如何提高其设施的设备可靠性?
可靠性工程师可以通过多种方式帮助改进和优化其设施的维护流程,从而最终提高设备的可靠性。我们将在下面讨论其中的一些。
协助备件的设计和开发
日常使用所带来的磨损并没有区别。大多数资产都需要定期配备备件,才能继续高效运营。
拥有合适资源的公司可能会选择使用 CNC 机器或 3D 打印来创建自己的零件,而不是不断补充备件库存。此外,他们可能有一台带有不再出售的备件的旧机器,或者必须处理需要定制部件的严重故障。
在这些情况下,可靠性工程师可以与维护团队密切合作,设计、测试和生产高质量的替换零件,从而提高现场资产的可靠性。
进行根本原因分析
可靠性工程师应该非常擅长的一件事是识别和理解故障原因。因此,他们可以负责执行根本原因分析 (RCA) .他们可以检查 OEM 手册、维护实践、设备维护日志和其他文档,以找出特定机器出现故障的原因 和建议如何消除和/或减轻 每个发现的故障原因。
解决潜在原因的一种方法是应用 RCM 实践。
确保维护措施解决正确的故障模式
这是上一点的延伸。由于最后一点专注于找出您没有做的事情(您没有解决哪些故障模式),让我们在这里关注您可能做错的事情 .
大多数公司会发现他们正在对资产进行定期维护,而该资产仍在发生故障。造成这种情况的原因有很多,其中之一是维护技术人员做错了事——比如没有解决正确的故障模式。这是 RCA 分析非常有用的地方。
同样,可靠性工程师可以偶尔检查不同的维护实践是如何执行的以及如何改进它们。他们可以检查维护团队是否使用过时的做法并执行可增加价值和解决正确问题的预防性维护任务。在一个好的 CMMS 系统中,所有这些都应该很容易访问。
要了解有关 CMMS 的更多信息,您可以查看我们的指南什么是 CMMS 以及它是如何工作的。
最后但同样重要的是,可靠性工程师还可以帮助选择正确的状态监测传感器和设备,以实施基于状态的维护和预测性维护等高级维护策略。
最后的想法
认真的可靠性工程努力带来了严重的结果。有了正确的知识,无论您的公司规模如何,都可以实施可靠性技术。
展望未来,我们希望组织将继续投资于可靠性,因为它可以帮助所有相关人员。生产公司受益于生产质量更好的产品,维护团队维护产品的麻烦更少,用户在产品的整个生命周期中遇到的性能问题也更少。这是一个双赢的局面。
您是可靠性工程师还是维护专家,认为我们错过了重要的一点?在下面的评论中分享您的想法。
设备保养维修