事实还是虚构:你的数据告诉你哪个故事?
公元前 30,000 年,我们的祖先在洞穴墙壁上绘制了关于他们日常生活的故事,到公元前 700 年,我们有了第一个印刷故事——吉尔伽美什。快进到 2021 年,我们与 AI 共同创造故事已有五年多。但是,当当前的任务是准确的商业智能时,公司希望放心,他们的人工智能和机器学习系统不会冒着艺术的自由并吐出一个高大上的故事。
现在尤其如此,因为人工智能和机器学习主导的决策是迄今为止采用率最高的,即使是最不情愿的高管也开始看到以数据为中心的战略方法可以带来巨大的好处。随着信任建立在 AI 和 ML 的承诺中,准确性至关重要。对于许多人来说,这个问题仍然是头等大事:“我们如何判断我们的数据是否告诉我们整个故事——以及一个基于事实的故事?我们需要知道什么才能信任我们的模型?”
干净整洁的数据
当机器学习系统提供不准确的预测时,我们可以寻找一个罪魁祸首——数据。除非发生黑天鹅事件,否则数据是任何预测系统的开始、中间和结束。可能是根本没有足够的数据来可靠地训练系统或基于其预测,在这种情况下,更多的数据点可以解决问题。通常,这样的事情会在模型构思的早期阶段以及几乎可以肯定在部署之前被捕获,至少在防止非常不准确的预测方面是这样。然而,更可能的罪魁祸首是起始数据不够“干净”。够干净是相对的。一些项目的数据要求类似于“我的运动鞋干净到可以去超市吗?”其他的,特别是在关键系统和那些涉及生命、安全和福祉的系统中,在涉及到数据的清洁程度时,更像是“无尘、防溅、可以检查牙齿的游行光泽”场景可靠(和合乎道德地)执行任务。
那么,是什么让数据变脏了? 短篇小说的信息不准确或有偏差。
损坏的标签,损坏的模型
这可能是标记不正确的数据、在错误字段中包含错误信息或格式不正确的数据,例如2015 年 12 月 27 日,而不是 2015 年 12 月 27 日或 2015 年 12 月 27 日。虽然第一个选项可能会简单地抛出错误或被忽略,但交换最后两种日期格式可能会对准确性造成严重影响。日期并不是无效格式会影响的全部——时间、SKU、数字应该是文本、文本应该是数字,以及来自车间设备的所有特殊数据流,如覆盖、警报、负载、速度、提要等。关键是,如果没有可靠且一致的结构,数据可能会变得混乱并导致洞察力不准确。
借助 MachineMetrics,公司能够利用我们的自动化数据转换引擎,该引擎对各种数据类型进行标准化和格式化,以便于分析。它可以处理自定义传感器值、机器状态、模式、警报、覆盖、负载、速度、进给、PMC 参数、诊断等。
你能相信你的消息来源吗?
考虑所使用的任何数据源的真实性和准确性也很重要,尤其是当这些数据源是人类时。人类不是最准确的生物。我们四舍五入,忘记和捏造数字。我们变得懒惰、疲倦、饥饿或心烦意乱。由于使用人类数据源的性质,数据会以某种方式变脏。在这里查看公差很重要。例如,机器操作员可能会添加有关他们使用的设备状态的数据。在提供有关停机时间的信息时,列出的原因可能是准确的,而时间更多的是估计值。这导致预测系统不太准确,因为它输出的响应也更接近估计值,而不是提供真正准确的数据。
这是应考虑实际公差的另一种情况。间隔秒还是半小时?在机器数据采购的情况下,对于某些用例,您甚至可以查看纳秒或更小。无论何种公差被认为对项目来说是合理的,重要的是要强制执行该公差并确保输入到系统的任何数据都在这些参数范围内以确保准确性。
MachineMetrics 高频数据适配器以 1kHz 的频率捕获机器数据(与标准的 1Hz 相比,速度快 1000 倍),因此无论您的应用程序要求何种精度级别,您都不会错过任何一个节拍。
这也是公司应该寻找偏见潜力的地方。遗漏的谎言仍然导致童话般的预测。您的数据源收集的范围是否足够广泛以显示整体情况,或者它们是否容易因使用的收集方法而产生偏差?例如,如果您想计算生产线工人的平均工资,但所有受访者都是男性,那么您可能会得到一个扭曲的数字,而如果您同时调查男性和女性以获得更清晰和更准确的图片。积极寻找这样的潜在疏忽可以带来更清晰的数据和更准确的预测。
上下文和复杂性
系统越复杂,当您尝试将其转换为可用于分析的东西时,支持它的数据和逻辑中的不准确性、不一致、风险和一般故障的空间就越大。您尝试收集数据的过程有多少个步骤?您是否具备行业知识来帮助您为原始数据提供背景信息?例如,一台机器在几分钟内多次“停机”并在其间成功生产不太可能是真正的生产运行,而是指示测试以确保最初导致停机的任何问题得到完全解决、重新校准和准备恢复真实 生产。但是,将这些数字在输入时保留在数据集中可能会导致严重的不准确,未经训练的人可能难以察觉。
这并不意味着您的数据科学团队必须成为您所在行业所有领域的终极专家。然而,这确实意味着拥有专家可以的渠道 添加上下文至关重要。例如,使用 MachineMetrics,机器操作员可以在车间的机器上配备平板设备。他们可以快速轻松地将人类背景添加到数值数据中,以提高分析阶段的准确性。如果没有这种上下文通道,它可能会变成一个猜谜游戏来决定哪些数字应该被扔进底池,哪些应该被丢弃。
无损转换
当你将一件事转化为另一件事时,基本上总会有一定程度的损失,无论多么微小——无论是将矿石转化为钢铁,棉花转化为纺织品,还是将数据转化为分析格式,重要的是确定多少损失是可以接受的,以及如何很多事情是可以预防的。从干净、准确的数据开始是干净、准确分析的重要第一步。在那个阶段之后,有必要考虑您将使用哪些工具以及用于哪些应用程序、任何保真度损失的可能性,以及这在多大程度上是可以接受的(或不相关的)。这会直接导致您重新了解您正在尝试对数据和模型执行什么操作(您正在尝试解决哪些问题)以及有效解决这些问题所需的准确度。
在 MachineMetrics,我们确保您的数据为您提供全部真相,仅此而已。我们是行业专家,他们了解使用数据主导的方法解决最紧迫问题(无论是机器停机时间、优化输出还是无数其他选项)所需的数据的深度、广度和类型。我们使用简单易懂的格式进行共享和分析,即使是实时的,也能保持完整性和保真度。 MachineMetrics 通过久经考验的流程简化了将车间数据与现实世界决策相结合的任务,以简单的语言和简单的工具实现,即使是非技术人员也可以轻松地 DIY 安装它们,提供的服务在不到一周的时间内,我们的客户就实现了投资回报。要查看 MachineMetrics 可以为您的企业回答哪些类型的问题或预订演示,请随时在此处与我们联系。
工业技术