容错及其对系统可靠性的影响
设计时没有考虑容错的设备和系统通常具有较差的(更)可靠性。
这就是为什么容错系统设计是大多数可靠性和设计工程师的明显选择——尤其是当涉及到关键设备时,这些设备的故障会危及整个系统的可靠性、可用性、可维护性和安全性 (RAMS)。部分。
加入我们,探索容错系统的特点,讨论通过冗余设计提高容错能力的方法。
什么是容错?
容错表示任何系统或设备在出现故障期间维持其运行的能力。
具有高容错能力的系统和设备,取决于所采用的容错机制,能够在发生故障时完全或部分维持其运行。为了在实践中发挥作用,此类系统不能有单点故障 (SPOF)。
容错设计的本质
容错设计的开发需要仔细考虑在整个设备生命周期中可能出现的故障及其可能的原因和后果。
但是,设计工程师还必须考虑实现设备所需的容差、可靠性和可靠性水平所需的成本和资源因素。
人们常常误解,容错设计应该对所有类型的故障提供完全的容错能力。这不是真的。一个好的设计应该将容错程度与故障的严重程度相匹配,从而实现成本和资源效率的整体优化。
例如,花钱重新设计产品,只是为了解决发生概率极低的故障可能并不划算。
容错系统的特点
要创建容错系统,需要在设备生命周期的每个阶段都做出努力。这包括但不限于规范和设计阶段(在设计中加入故障检测控制)、验证和验证 (V&V)、维护和操作(使用 OEM 批准的更换零件和日常维护指南),甚至处置阶段.
每个阶段都可以采用以下技术的组合来开发新设计或改进现有设计以提高其容错水平:
- 故障检测与显示
- 故障诊断和遏制
- 故障屏蔽和补偿
1) 故障检测与显示
故障检测是指系统/设备感知和显示故障的能力。 这是任何容错系统的基本方面 .所有其他方面都取决于故障检测过程的有效性。如果系统没有设计为检测其故障,或者以某种方式错误地检测到故障,其他方面也将无效。
例如,汽车轮胎压力监测系统 (TPMS) 中的一个简单的气压传感器可以检测到空气溢出并通过汽车仪表板通知驾驶员。
TPMS 激活的表示
在这种情况下,检测和显示是此故障事件唯一可接受的容差级别。客户可以在轮胎破裂之前安全地松开空气软管。
如果压力检测不准确,驾驶员可能会过早/过晚松开软管并在驾驶过程中遇到轮胎故障。由于没有气压的自动校正,因此该故障的容差方面仅限于检测和显示。
2) 故障诊断与遏制
在更复杂的系统中,通常在产品设计阶段添加额外的层。它们的目的是在检测和显示的基础上诊断和执行遏制。由于系统的关键性或由于各种安全问题,这些附加层是有保证的。
例如,分布式控制系统 (DCS) – 过程工厂的控制系统 – 不仅通过一组传感器监控关键过程参数,而且还执行诊断以检测故障位置并执行必要的控制。
DCS 系统的表示
例如,在容器中石油产品超压的情况下,系统由相关压力传感器触发。它打开安全压力阀并将火炬烟囱中的蒸汽排出。
在这个例子中,通过将高压可燃蒸气转移到排气烟囱来实现安全壳,保护系统免受火灾或爆炸的影响。
3) 故障屏蔽与补偿
另一种有效的容错方法是屏蔽故障状态。对于可以通过物联网 (IoT) 技术进行监控和控制的设备,它非常有效。
对于此类设备,最重大的挑战之一是网络安全威胁。这些类型的威胁可以尝试通过将虚假设备数据注入服务器来改变设备状态来诱发故障。
如果设备状态记录不正确,原本打算保护的控制和监控系统反而会导致资产故障。或者,它可能会被“骗”到认为资产状况良好,而实际上并非如此——让恶化导致故障而不触发任何警报。
通过结合故障屏蔽,系统的设计方式可以识别和屏蔽那些不正确的值。
例如,在电网中,断路器通常通过监控和数据采集(SCADA)进行控制和监测。
SCADA 系统的表示
这样的系统密切监控用电设备的电压和频率参数,并使其关闭或打开,以维持电网的稳定。
传入的网络攻击可能会改变设备的电压和频率限制。结果?该系统可能会导致电源故障,而不是阻止它。
故障屏蔽通常通过检测异常数据流并注入虚假数据的算法来执行,目的是屏蔽代表设备故障状态的数据。这可以防止不良数据参与者传播故障并进一步加剧电网的可靠性。
通过冗余设计提高容错能力
可以采取的提高容错能力的简单措施之一是在设计中加入冗余。冗余只是意味着存在替代系统或解决方案,可以在主系统出现故障时接管预期功能。
<块引用>虽然冗余提高了容错能力,但随意添加系统不应该是目标,因为添加任何新系统所需的成本会大大超过可实现的可靠性收益。
从物理设备的角度来看,它们可以大致分为主动 或被动冗余 .
主动冗余
当多台设备同时运行时,可以建立主动冗余。在这种配置中,每台设备都为实现预期功能贡献其份额,同时仍充当彼此的冗余。
简单的主动冗余是两台泵以其额定容量的一半并行运行。两个泵共同运行以达到所需的排放压力。如果一台泵出现故障,另一台泵仍可升压至其额定容量,以自行达到预期的排放压力。为了实现设计的经济性,可靠性工程师提出了各种其他复杂的方法来实现主动冗余,例如 K of N 冗余和优雅降级。
在 N 个冗余中的 K ,给定的设备子集始终处于运行状态。这增加了系统的可靠性,因为一些设备仍然处于热备状态,并且可以在一些设备出现故障时加入操作。与简单的两台泵并联运行相比,这保证了更高的可靠性,因为会有更多的小泵在运行。
优雅降级 是添加昂贵的相同和并行系统的替代方法。它确保整个设备的特性或功能与故障组件的数量成比例地降低。为了实现这种可扩展的降级,应该检查所有组件中所有可能的故障。应分析和记录它们对整个系统性能的影响。
这些技术提供了对部分故障的容忍度,并使系统能够以降级的容量继续其功能。
被动冗余
被动冗余是备用设备存在的备用冗余——但它只能在主设备出现故障时接管预期的功能。
我们可以区分两种类型的被动冗余:
- 操作被动冗余
- 非经营性被动冗余
操作被动冗余 是替代设备作为热备件存在的设备。备用设备很热,因为它可能在空载条件下运行。在某些情况下,它可能提供超出主要设备功能定义的功能。
当一次设备发生故障时,运行中的备用设备可以自动转换为执行一次设备的功能。
运行无源冗余的一个示例可以是在空载条件下运行并满足所有其他并联条件(例如相同的端电压、频率和相序)的次级交流发电机。主交流发电机发生故障时,副交流发电机可自动与系统同步并接管负载。
在非运营被动冗余的情况下 ,备用设备断电。当一次设备出现故障时,备用设备可以自动或手动设置为运行状态并接管一次设备的功能。
非运行被动冗余的一个很好的例子是备用市政水泵,如果主水泵出现故障,它可以手动启动和操作以向居民供水。由于操作的恢复并不重要,操作员可以去启动泵(并根据需要稍后与系统同步)。
用于分析容错的可靠性技术
容错是可靠性工程工作的一部分,需要仔细检查设备内可能发生的所有可能的故障。故障模式影响分析 (FMEA) 和故障树分析 (FTA) 是两种众所周知的技术,可分别从自下而上和自上而下的方法分析系统设计。
为了更好地理解容差,必须分析和调查故障序列和相关性。分析相关性和序列的一种特别有用的技术是马尔可夫模型,其中任何故障事件的概率都取决于前一个事件的状态。
同样,另一种强大的技术是蒙特卡罗模拟,可用于模拟任何故障事件的不确定性对系统性能的影响。
容错和维护操作
容错系统是否需要较少的维护?嗯,是和不是。
由于我们之前讨论的冗余和其他特性,此类系统通常可以在其功能受到损害之前承担更多故障。但是,如果问题得不到解决,故障的累积最终会导致系统或设备故障。因此,维护团队应使用 CMMS 系统来确保及时采取纠正性维护措施。
从某种意义上说,容错为维护和支持团队提供了更多的喘息空间。他们仍然需要处理这个问题,但可能不是马上。
虽然容错设计在增加成本和复杂性方面面临挑战,但它们以提高设备可靠性的形式弥补了这一点。
设备保养维修