亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 自动化控制系统

我们能否自动化数据质量以支持人工智能和机器学习?

组织能否自动化数据质量以改进 AI 和 ML?

在过去的十年中,公司已经开始把握和释放人工智能 (AI) 和机器学习 (ML) 可以带来的潜力。虽然仍处于起步阶段,但公司已经开始了解这项技术可以带来的重大影响,帮助他们做出更好、更快和更有效的决策。

当然,人工智能和机器学习并不是帮助企业拥抱创新的灵丹妙药。事实上,这些算法的成功取决于它们的基础——特别是质量数据。

没有它,企业将看到他们安装 AI 和 ML 的目标失败了,不良数据的不可预见后果会对企业的效率和声誉造成不可逆转的损害。

但还有另一个探索领域已经成熟。即,能否通过自动化和机器学习本身来提高和维护数据质量?

数据质量差的风险

从电影流媒体服务到聊天机器人,再到帮助告知超市如何安排货架和引导我们通过主要交通枢纽,机器学习以十年前无法想象的方式影响着我们的生活。

但是,如果算法设置为在数据质量差的基础上工作会发生什么?未来的风险可能比你不喜欢的电影要严重得多。

例如,如果我们开始信任机器学习来改进药物的发现和测试,如果一种药物被配制,但用于模拟测试的化合物数据存在错误,会发生什么?影响可能很严重。

机器学习的一个新兴应用也可能受到基础数据不佳的影响,那就是自动驾驶汽车。从地图和地址到车辆对骑车人的反应,用于训练机器的数据对于消费者和监管机构的采用至关重要。

ML 算法——那些有助于解决已定义问题的规则和计算集——可以支持数据质量的提高,或者如果在构建过程中不考虑不良数据的可能性,则会被不准确的数据抛弃。

自动化数据质量

与任何数字化转型一样,从手动转向自动化再到“智能”数据质量管理需要一个长期计划。 Experian 已经确定了数据管理进展的四个阶段,我们称之为数据管理成熟度曲线。 Unaware、Reactive、Proactive 和 Optimized &Governed 反映了跨越数据质量策略整个周期的四个阶段。

随着组织开始释放他们持有的数据的潜力并更加认真地对待它,评估显示成熟度曲线稳步上升。最有趣的是,那些发现自己处于优化和治理阶段的人可能会看到另一个级别的开始,这可以称为“智能自动化”。

“智能自动化”是指拥有适当的系统和流程来帮助负责数据质量的人员确定他们最关心的问题。我们现在都应该定期审查关键性能指标,以确定数据质量的趋势,也许查看关键属性的总体完成率,或者监控数据接收或数据加载阶段的任何时间问题。但真正了解您的数据质量需要我们更深入地了解内容。

例如,当您收集的大部分日期是系统派生的,因此不是真实的出生日期时,您是否已经收集了出生日期以满足 99% 的第三方数据要求?这可能会导致真正的问题,而意想不到的后果可能会波及您的决策过程。

接下来的步骤

大多数数据质量程序已经包含自动化和测试和学习的元素。这一演变的下一个阶段是使用机器学习来自动识别和响应不同类型的数据——“智能自动化”。

例如,一种数据管理工具可以识别标准信息,例如地址、电子邮件、信用卡号码或国家保险号码,而无需进行预先培训或规则编写,然后再采取诸如验证条目或将合规问题标记为经理。

最终目标是 ML 以提高数据质量,然后随着时间的推移自行改进。一个很好的例子是公司名称——Tesco PLC 和 Tesco Stores Ltd 一样吗? Tesco 集团的一部分公司名称中没有“Tesco”这个词怎么办?

将商业实体分组在一起可以像查找名称一样简单,也可以通过查看公司帐户、总部地址、CEO 姓名、网址和其他元数据的详细信息来查找全球关联的更复杂的方法。

这些假设是强大的数据策略可以支持的业务挑战。但是,我们是否可以转移到一个可以自动化这种学习并随着时间推移以更少的人工工作提高数据质量的地方,让我们的数据人员有更多时间来分析和支持业务?

这就是 ML 面临的挑战——采用数据质量的基本规则,实施它们,然后随着数据的实际变化作为异常或异常值变得可见,提出改进建议。这是一个新兴的主题,我们希望在未来几年看到很大的发展。

您的数据策略

从根本上说,ML 的每个示例都依赖于适合目的的数据——如果不是这些数据,那么因此做出的决定是不可信的。

为避免这种情况,组织需要确保他们拥有强大的数据策略。想想开始 ML 的原因;他们想要达到和避免的可解释结果是什么?

然后,通过对您的数据进行初步评估以检查他们已有数据的质量,组织可以采取行动并计划他们还需要什么,以提高数据的整体质量。

如果要成功采用和实施这些决策,那么能够识别和跟踪通过 ML 做出的决策以及所有自动化决策过程至关重要。

持续监测数据质量也很重要。通过这样做,您将能够快速确定哪些领域需要关注,并确保您在当前和潜在的机器学习计划中处于最佳位置。

然后,组织将能够让机器学习使他们能够更有效地管理数据质量,使他们的决策过程更快、更好。

以此得出合乎逻辑的结论,使用机器学习可以帮助我们识别那些在成为真正问题之前一直隐藏的数据问题。如果我们可以训练模型来识别可能影响决策或后续流程的关键属性,然后监控波动或相关模式,我们甚至可以预测这些数据问题可能对您的业务产生的影响。

例如,如果我们知道房产中的卧室数量直接影响我们的业务决策,并且我们确定我们在该领域拥有不完整或近似的数据到一定规模并且越来越差,我们是否可以预测,基于哪里?我们知道所使用的数据是租金收入估算、抵押贷款估值还是供暖消耗预测?

这种日益增长的数据质量问题的影响,可能有助于构建业务案例以在现在而不是在它成为真正问题时进行纠正。


自动化控制系统

  1. 供应链和机器学习
  2. 数据科学和机器学习如何帮助提升网站设计
  3. 人工智能 vs 机器学习 vs 深度学习 |区别
  4. 自动化和人工智能如何提升网络安全
  5. 机器学习领域
  6. 工业 AIoT:结合人工智能和物联网,实现工业 4.0
  7. 视频:人工智能 (AI) 对制造和加工的影响
  8. 人工智能的优缺点
  9. 大数据与人工智能
  10. 人工智能改善电池健康和安全
  11. 对人工智能的真实思考
  12. 卸垛如何从计算机视觉、机器人技术和机器学习中获益