王牌的格言：大数据爱好者的常用术语

大数据装载着大词。掌握常用数据术语不仅可以帮助您理解，还可以参与并影响围绕数据计划的对话。在 www.datamakespossible.com 上查看有关数据演变和革命的重要讨论。

好的，让我们开始吧，揭开你之前听过的一些术语的神秘面纱，并介绍一些可能是全新的。

数据科学家

结合了科学、商业和艺术的同等部分，数据科学家使用算法、工具和流程的知识从数据中提取一些价值。数据科学家通常会运行机器学习或人工智能来挖掘、分组或分析数据集。

异方差和异方差数据

异质什么 ?这对您来说可能是一个新术语，因此让我们通过一个非常基本的示例来了解其含义。

有些数据是常数并且永远不会改变。昨天的博客是一个常数。在我们发明时间旅行之前，您将无法回去改变某人昨天所做的事情。

数据的下一个复杂度是线性 <我>。队列或语音邮件是线性增长的一个例子。如果一个 worker 每小时可以处理 10 条消息，那么我们需要 5 个 worker 每小时处理 50 条消息。以二次增长的数据 时尚将以 4 倍（或更高）的速度增长。这方面的一个例子可能是社交媒体。当你写一篇文章时，可能有 4、10、100 甚至数百万人阅读它。这些人可能会分享您的帖子、对其发表评论，或者以其他方式生成一些每秒都在变化的元数据。这就是我们开始进入异方差的地方。它的定义是高速（快速移动和变化）和高可变性（即没有简单的方法可以预测谁评论、分享和喜欢帖子，或者响应速度是多少）。

另一个很好的比喻是烹饪。在做饭时，我们会以不同的方式组合食材，以尝试创造出（希望）美味的东西。任何尝试过做饭的人都知道，任何细微的变化——加少许盐、烹饪时间过长、西红柿切得过大或过小——都会对结果和最终食谱的收敛产生深远的影响对于那道招牌菜。

即使您以前从未使用过这个术语，异方差性也是您在工业物联网工作负载中越来越多遇到的问题。在处理高速数据（如流媒体）或频繁处理非结构化、快速变化的数据（如 Google 网络爬虫遍历的 HTML 页面）时尤其如此。

机器学习

机器学习 (ML) 是计算机科学的一个领域，它使计算机能够通过对数据模型的严格训练从原始数据中识别和提取模式。

ML 支持“大数据的三个 C”——分类、聚类和协同过滤。

分类是识别新模式属于哪一组类别/子类别或种群/子种群的问题，该数据集包含该模式或类别已被识别的实例和众所周知。例如，分类可能涉及训练一个算法来识别一组 MRI 扫描中的肿瘤，然后要求该算法识别其他有肿瘤的扫描。

聚类涉及将原始数据点分组为集合或“集群”。这里的一个例子可能是一个 ML 算法，它实时运行网络日志，将有效流量（允许）归为一类，将可能的攻击（阻止）归为另一类。

协同过滤只是“推荐”的一个花哨词。一个例子是确定和展示彼此之间具有某种亲和力的产品。

我们在机器学习中所做的很多事情都被称为“浅层学习”。深度学习通常是真正人工智能的一个组成部分。

人工智能

人工智能 (AI) 为计算机提供了执行深度认知分析的能力，从而涵盖并扩展了机器学习。

ML 通常涉及算法创建、调整或训练方式的某种初始人工干预（例如向计算机提供肿瘤扫描），而 AI 使计算机能够选择、调整和训练自己执行某些特定功能。最终，人工智能使用深度学习来模拟人类的决策和学习过程。

您可能没有意识到，但是，AI 可能是您日常生活的一部分。在下面的 NLP 定义中详细介绍了这一点。

虚拟现实

虚拟现实 (VR) 允许用户步入虚拟世界，其外观和声音与他们的物理环境完全不同。

VR 可实现虚拟过山车等娱乐体验，但也具有重要的商业应用。 VR 通常需要数字显示耳机。

增强现实

增强现实 (AR) 致力于将数字人工制品叠加在现实世界之上，从而实现交互。最近，随着游戏应用程序的流行，AR 获得了广泛的成功。

自然语言处理

自然语言处理 (NLP) 允许计算机解析和理解书面或口头人类语言。如果您对着手机或家说话，您可能已经体验过 NLP。

NLP 是解释深度学习和浅层学习区别的好地方。第一代 NLP（浅层学习）专注于将句子分解为标记（单词），然后对标记应用一些规则。然而，今天的深度学习 NLP 着眼于陈述的整个上下文并推理出真正的含义。

想象一下书面的网络评论。浅层学习只会查看有限数量的数据标记，例如“评论评分星级的数量”和基本的“情绪分析”。这可能涉及计算正面词与负面词的数量。这些数据点通过一组通常很脆弱的规则提供，以得出有关评论是正面还是负面的结论。

深度学习引擎将更多智能应用于这种分析——几乎就像人类在阅读相同评论时可能做出的猜测一样。例如，如果评论有很多“正面”，例如五星级、良好的正面与负面计数比等，浅层 NLP 引擎可能会得出结论，这是正面评价。然而，深度学习 NLP 引擎可能会解释（就像人类一样）在阅读“我永远不会再买这个产品”时，评论实际上是负面的。这句话本身就否定了用户可能提供的任何积极情绪。

图像识别

图像识别使计算机能够从简单的视觉图像中推断出含义。它经常与提供商的 ML 或 AI 产品（以及 NLP）捆绑在一起。

图像识别允许计算机使用光学字符识别或 OCR（广告牌中的文本）识别书面语言等对象、标记对象（例如“山”、“树”、“汽车”、“摩天大楼”）甚至执行面部分析（例如在面部周围绘制边界框）。

汽车行业目前正在将图像识别提升到一个全新的水平，他们应用面部分析来检测和提醒可能感到疲劳的驾驶员。

结构化、非结构化、半结构化数据

从历史上看，我们处理的大部分数据都是结构严密的。这意味着它非常适合行/列格式（如数据库）。因此，许多计算机系统被设计为摄取和生成这种形式的数据。

人类是另一种野兽。我们擅长生成和使用非结构化数据，如自由流动的文本、语音和图像（如相机快照）。所有这些数据本质上都没有“结构”。我们不能“依赖”于某些语言、词语、语调等。

半结构化数据位于中间。一个很好的例子是电子邮件。它有一些结构，如“主题”、“收件人”、“发件人”、“日期”，但主要的有效载荷是电子邮件“正文”中的一团非结构化文本。

仅在最近 10 年，我们的计算机系统才变得足够强大，可以对非结构化数据进行分析。

数据湖

任何分析引擎（如 Hadoop）通常都以紧密耦合的方式提供存储和计算。每次添加更多处理时，本质上都会添加更多存储。

然而，许多组织都坐在堆积如山（PB 级）的数据上，他们想要持久保留，但不会立即进行分析。延迟的原因之一是在分析之前可能需要对数据进行预处理和清理。

数据湖提供低成本、高度耐用、可从任何地方访问且计算量有限的存储。与一次处理的数据相比，它允许保留更多的数据。

从配方范式来看，数据湖就像您的原材料（蔬菜、大米、肉汤）储藏室。只有当你想做饭时，你才根据食谱取出正确的成分子集，并为那顿饭准备它们。

数据库

我们通常所说的“数据库”也称为关系数据库管理系统 (RDBMS) 或 OLTP（在线事务处理）系统。 Oracle、MySQL、SQL Server 都是这方面的常见示例。

许多（通常）来自最终用户的小型“事务”表征了 RDBMS。

想想零售电子商务网站。在任何给定时刻，数十万用户在浏览产品、阅读评论、生成订单等时都在执行少量读取（查询）和写入（插入）操作。人们期望这些系统能够非常快速地执行这些查询。

数据仓库

数据仓库（也称为企业数据仓库或 EDW）是公司运行分析以回答几个重要业务问题的地方。我们增长最快的产品线是什么？哪些产品类别的投资回报率最高？我们在哪些地区、类别、销售人员等方面表现最差？

EDW 通常仅由少数（可能是十几或几十个）内部用户使用，在海量（可能是数百 TB 或数十 PB）数据集上运行长时间运行的查询。

可视化

一个可视化工具提供了一个可视化的前端来进行复杂的分析。

使用简单的拖放操作，即使是不熟练的实习生也可以构建大量复杂的报告，例如季度销售额、畅销产品、增长等。

这些系统通常要求您连接它们的引擎具有 SQL 接口，这（并非巧合）每个 RDBMS 和 EDW 都提供。如果您和许多数据分析师一样，您与系统的交互中有 95% 将通过这些可视化工具之一进行。

希望您喜欢我们在大数据中找到的常见术语的快速演练。现在可以通过讨论前所未有的数据增长的可视化、创建数据湖的优势、通过 ML 和 AI 释放异方差数据的价值来彻底改变世界，从而给饮水机上的人们留下深刻印象。对数据对世界的影响感到好奇吗？既然您会说行话，请加入 datamakespossible.com 上的讨论。

本文与 Western Digital 合作制作。

作者是西部数据的研究员和首席数据科学家，正在塑造、推动和实施大数据平台、产品和技术，使用先进的分析和模式匹配与半导体制造公司的数据。

工业 4.0 – 以正确的方式构建 IIoT 生态系统企业创新中心如何提高企业竞争力

物联网技术