亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 工业技术

如何避免数据分析项目的陷阱

凯捷最近的一项研究发现,欧洲 15% 的大数据计划失败了。为了确保您的项目属于成功的 85%,我总结了要注意的四个主要陷阱。 (这篇博文包含前两个陷阱,其他两个将在不同的博文中发布。 )

意识到这些并加以考虑将大大增加您的数据分析项目成功的机会。别担心:您绝不是唯一面临这些挑战和陷阱的人。在我们最初的数据分析研讨会中,我们经常看到参与者遇到他们,直到项目结束。在这里,我想与您分享我从许多成功的研讨会和项目中获得的见解,指出主要缺陷,并通过示例用例进行说明。

1.发起者——IT 与部门

数据分析和大数据不是一回事——即使它们经常互换使用。

IT 部门经常通过“大数据眼镜”查看项目。它们为收集大量数据提供了基础设施;例如,以数据库集群的形式。这些数据库存储了大量数据,而这些数据本身并没有为公司创造附加值。这就是为什么数据分析项目应该始终具有明确定义的技术和商业目标。仅仅为了数据而收集数据根本不会给公司带来任何好处。

只有当公司利用数据和由此产生的洞察力时,才会产生附加值。这就是它的(非行政)部门发挥作用的地方。他们定义了他们想要通过数据分析实现的目标——而不是大数据。它们提供了技术理解,使数据科学家能够以有针对性的方式处理数据。因此,为了实现既定的项目目标,创意提供者(部门)和数据科学家之间的密切合作是绝对必要的。

换句话说:数据分析项目的成功或失败取决于将什么以及多少技术流程理解传递给数据科学家。数据分析工程师在这里也发挥着重要作用。它们支持不同学科之间的“翻译”和知识转移。数据分析工程师利用他们在制造或物流方面的运营经验以及对数据分析方法的基本了解。数据专家不仅必须了解项目目标,还必须了解数据中的相关性,尤其是相关性。更重要的是,他们必须看到它与现实世界(机器、传感器等)和相关流程步骤的关系。

正如凯捷的研究所示,IT 部门通常是数据分析项目的发起者。这本身不是问题,只要其他部门密切参与并确定项目的技术目标即可。

2.并非所有数据都是平等的

项目启动,目标明确——开始!

停下!

在数据科学家开始之前,您需要验证数据的质量和数量。

a) 数据质量

在这里,重要的是要考虑可用的数据格式、在何处查找哪些数据以及数据在不同来源之间是否透明。

示例:

要集成来自多个来源的数据集,您需要一个唯一标识符,以便正确整理数据。例如,这可以是时间戳或部件号。如果在各个数据源中使用不同的日期/时间格式(德国与美国日期格式、UTS 中的时间等),则使用时间戳会使集成更加复杂;然而,这仍然是可能的。相比之下,如果使用不同的时基几乎是不可能的。这是没有统一的时间同步来为所有数据源生成时间戳的情况。

b) 数据量

越多越好——俗话说得好。但就数据分析而言,这只是部分正确。一般来说,当然,您拥有的数据越多越好。然而,这里也有许多关键方面需要考虑。

例如,根据技术目标定义,基础数据不仅要包含正面结果,还要包含足够数量的负面结果,这一点很重要。

示例:预测负面结果

如果项目的目标是开发一个预测负面结果的模型,那么用于训练预测模型的训练数据集必须包含足够数量的负面结果。否则,模型无法学习这些负面结果,因此无法预测它们——因此,您无法使用此数据集实现项目目标!出于这个原因,在编译训练数据集时,您应该确保它包含足够数量的要预测的参数(目标变量)——在上面的例子中,负面结果。实现这一目标的一种方法是延长收集数据的时间段。

c) “正确”的数据

所以很明显,数据量并不是唯一的标准。最重要的是,您需要正确的数据!

我们所说的“正确数据”是什么意思?

数据必须包含实现技术项目目标所需的相关信息。例如,如果您想开发一个模型来预测由表面粗糙度测量定义的产品质量,则必须在数据集中表示该变量。如果您在没有随后存储测量值的情况下进行测量,您将无法开发相应的模型。这也不是一个无法解决的问题,但它可能会延迟进度,因为首先必须生成足够的数据基础(例如,借助额外的传感器技术、保存相关数据等)。

谁来确保您的数据分析项目成功?

资料来源:Bosch.IO

为了帮助专家实现 a)、b) 和 c),我们将我们在许多成功项目中获得的经验汇集到数据质量指南中,我们在项目开始时提供这些指南。我们还在最初的研讨会中通过确定那些将带来快速胜利的用例来处理这个主题。通过这种方式,我们提高了制造专家对这些主题的认识,事实证明,这对于流程的后续步骤总是具有明显优势。


工业技术

  1. 通过边缘分析升级工业 4.0
  2. 使用大数据分析优化制造
  3. 如何避免二手数控机床出现问题
  4. 利用大数据项目和人工智能推动业务成果
  5. 最后一英里交付的三个陷阱——以及如何避免它们
  6. 数据科学如何帮助抗击冠状病毒爆发
  7. 数据挖掘、人工智能:工业品牌如何跟上电子商务的步伐
  8. 云分析如何加速数字供应链转型
  9. 物联网项目失败的 5 个原因以及如何避免它
  10. 开发工业机器学习项目:要避免的 3 个常见错误
  11. 制造商如何使用分析来获得更好的客户体验
  12. 利用分析改进先进制造的决策制定