亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 物联网技术

数据湖与工业应用的大数据

数据湖和大数据是两个经常被误解和错误使用的现代术语。由于隐含的大量数据,这些术语有时可以互换使用。然而,数据湖和大数据是不同的,尽管它们目前的定义可能尚未完全确定。

图 1. 现代数据可以来自许多来源并且具有不同的类型。图片由 Analytics Vidhya 提供

我们先来看一个简短的历史背景。在 2000 年代后期,随着 Facebook 和 Twitter 等社交媒体平台的爆炸式增长,许多数据科学家开始意识到此类平台在生成大量有价值的个人数据方面的潜力。因此,开发了新的软件应用程序以促进数据处理和分析。一个突出的例子是 Apache Hadoop,它本质上是一个开源应用程序工具包,可以处理大数据级别的信息。

在接下来的十年中,物联网 (IoT) 进入了场景。这为数以百万计的数据源打开了大门,这些数据源可以深入了解一个人的偏好和模式,同时还可以发送有关产品本身的信息。

与此同时,机器学习正在取得重要进展,并在工业领域找到更多实际应用。这导致行业中处理大量数据的需求增加,尤其是在自动化流程中。

所有预测都表明,未来几年世界上可用的数据总量将继续加速增长。作为参考,2016 年,全球超过了每年产生 1 泽字节互联网流量的里程碑。 1 泽字节等于 1 万亿千兆字节。

预计 2021 年互联网年流量将超过 3 泽字节。这些预测以及云计算的扩展功能表明,大数据(和数据湖)的价值和用途可能才刚刚开始。

什么是大数据?

单纯从体积的角度来看,大数据的定义是一个移动的目标。随着可用数据量和存储空间的不断增长,被视为大量信息的基准也在不断增长。

如今,100 TB 或更大的数据存储库通常被认为属于大数据范围。来自社交媒体平台的大型数据存储库可能在数 PB 的范围内。

另一个用于定义大数据的参考是当信息量不能由传统的计算机工具(如 SQL)处理时。例如,今天,数据库每年达到 1 TB 的情况并不少见。但是,随着 SQL 应用程序变得越来越强大,这种规模的数据库仍然可以管理;因此,它们通常不被视为大数据。

大数据的 4V 模型

到目前为止,我们已经从体积的角度来看了大数据的定义。还有其他三个重要因素需要考虑:速度、多样性和真实性。这些与音量一起构成了 4V 模型。

图 2. 大数据的 4V 模型:容量、速度、多样性和准确性。图片由 APSense 提供

多样性是指存储在大数据存储库中的所有不同类型的数据:文本、图像、声音、视频等,也指数据可以来自多个来源。

速度是大数据中的一个重要考虑因素,因为信息不断流入。速度与数据收集、生成和分发的速度有关。

Veracity 衡量数据的准确性和质量,以评估数据科学家是否可以将其用于分析并从中得出结论。

现在我们了解了大数据,让我们先回顾一下数据湖,然后再深入研究如何在控制系统中使用它们。

什么是数据湖?

数据湖是大量原始数据的集中存储库,这些原始数据在未来可能有价值也可能没有价值,其用途还不是 100% 已知的。数据湖可以存储关系型和非关系型数据库,以及其他类型的文件和实体。

尽管数据湖中的信息没有经过处理或组织,但它是经过结构化的,因此所有的输入和输出都被认为可以创建良好的架构。

数据湖与大数据

数据湖是大数据应用的一个实例。它们遵循 4V 模型中描述的标准,并增加了一些特殊性。就数据量而言,数据湖平均接近大数据的下限。

数据湖中的信息多种多样,但条件是它只是未经处理的原始数据。输入和输出速度与任何现代系统一样重要,数据质量评估在设计良好的数据湖中进行。

数据的工业应用

先进的自动化正在推动工厂车间处理的信息量迅速增加。因此,制造和其他工业流程现在正在进入大数据领域,一些业务活动现在使用数据湖等工具。

一个突出的例子是预测性维护。预测机械或电气故障的能力非常有价值,可以显着节省维修成本。数据湖是有用的工具,可以编译来自日志文件、多个传感器和输入设备的信息,可用于了解趋势和预测问题。

机器学习是一个概念,其中向机器人提供信息,可以帮助它们适应不断变化的外部条件。捕获信息类似于预测性维护,附加步骤是将过程的评估和更改自动提供给系统控制器。机器学习数据可以存储在结构化数据湖中。

图 3。 机器学习有几种策略,每种策略都需要大量数据。图片由 WordStream 提供

总而言之,数据湖是大数据应用程序的一个实例。这两种查看数据的方式可以协同工作。通过利用大数据和数据湖,控制工程师可以预测故障、创建维护程序、促进设施的数字化转型等等。

您在工作中使用大数据和数据湖做什么?


物联网技术

  1. 传感器和处理器融合用于工业应用
  2. Cervoz:为工业应用选择合适的闪存
  3. GE 推出用于工业数据、分析的云服务
  4. 工业物联网发展前景
  5. 工业物联网的四大挑战
  6. 成功的传感器信息应用的六大要素
  7. 如何理解大数据:RTU 和过程控制应用
  8. 为工业数据科学的成功奠定基础
  9. 对于真正的工业互联网洞察力:不要只是捕获数据,而是要使用它
  10. 大数据是否可以解决健康预算不佳的问题?
  11. 7 工业物联网应用
  12. 工业自动化为信息自动化让路