为云数据湖准备文件数据

云数据湖战略是数据密集型企业 IT 组织迁移到云的自然演变，因为它将云从廉价的数据存储柜提升到可以利用数据获得新价值和货币化的地方。

如果说 2020 年和 2021 年是云加速加速的年份，那么 2022 年将是企业开始认真考虑将非结构化文件数据引入云数据湖的一年。这种趋势背后有几个原因。首先，组织拥有数 PB 的非结构化数据，这些数据占当今全球存储的 64 泽字节数据（并且还在增长）中的至少 80%。其中大部分是文件数据——从医学图像到流媒体视频、来自电动汽车和物联网产品的传感器数据以及人们在各个领域进行协作和开展业务时使用的文档。

其次，文件数据变得难以管理、存储成本高昂，CIO 知道他们正坐在一个潜在的洞察力金矿上，只要他们能够确定如何将其放入正确的位置进行分析。最后，主要的云平台正在大力投资于数据分析/ML/AI 工具和低成本的对象存储层，以支持数据湖项目。

另见： 数据湖、时间序列数据和工业分析

数据湖向云端的成熟

根据我们最近进行的一项研究，启用数据湖是 IT 经理优先考虑的首要目标之一，此外还有安全性、成本管理和可见性。云颠覆了传统的数据湖策略，该策略始于公司想要分析半结构化数据，例如 CSV 和日志文件。 2006 年，Hadoop 诞生了，并在大数据对话开始流行的时候得到了广泛的采用。然而，Hadoop 最终被证明比预期的更慢且更昂贵，设置、扩展和管理复杂，并且主要为批处理而设计。为了解决这些问题，Apache Spark 进入了现场，在某些工作负载下运行速度提高了 100 倍，并且非常适合实时分析。重要的是，Databricks 等公司的重点是在云中运行 Spark，而 Hadoop 主要是在本地实施。

在过去的几年里，基于云的数据湖平台已经成熟，现在已经准备好迎接黄金时段。云提供商更便宜的横向扩展对象存储为在本地根本不可行的大规模、PB 级项目提供了一个平台。下一代数据湖基于 Apache Spark 构建，以支持 S3 或对象数据存储，从而可以摄取和处理半结构化和非结构化数据。文件存储也在向云端过渡，需要作为云数据湖的一部分加以利用，因此可能并非所有数据都在对象存储中。

云数据湖战略是数据密集型企业 IT 组织迁移到云的自然演变，因为它将云从廉价的数据存储柜提升到可以利用数据获得新价值和货币化的地方。

如何驯服云数据湖

虽然这些对于云数据湖来说仍处于早期阶段，但在数据湖中包含文件数据是必不可少的，因为机器学习模型需要大量数据才能产生有意义的结果。然而，这种非结构化数据在文件类型之间没有标准化：视频文件、音频文件、传感器数据、日志不具有共同的结构。并且随意将所有这些文件数据转储到云数据湖平台中并不是一个明智的策略，而是以后要清理的烂摊子。尽管有承诺，但数据湖存在许多风险，包括高昂的管理成本、技能差距、安全和治理问题、在云和存储平台之间移动数据时的可移植性问题，以及长期以来人们担心数据湖在数据时会变成沼泽。变得太大而复杂，无法搜索和分析。

在着手将文件数据引入云数据湖以避免或最大程度地减少冲突时，请注意以下几点 .

优化数据湖。 在分析任何数据之前，必须对其进行清理、规范化和分类，这可能是一个高度手动的过程，导致成本超支和价值实现时间缓慢。这一直是数据仓库计划面临的挑战，同样适用于数据湖和数据湖库。数据湖之所以吸引人，是因为它们可以提取原生格式的数据；在将数据放入湖中之前需要优化会破坏这种易用性。如何在不改变用户行为的情况下自动优化文件数据？优化文件数据的关键是元数据：有关文件类型、创建日期和上次访问日期、所有者、项目和位置的信息。在元数据属性上自动索引和标记文件的能力将避免数据沼泽问题，并使以后的搜索和分段更容易，而不是仅仅让数据湖不受管理。
使用元数据索引来查找满足特定需求的精确数据集。 可以跨存储（包括本地、边缘和云位置）索引文件和搜索元数据的工具可以将数十亿个文件缩小到几千个，以便您只将要分析的精确文件发送到云端。
随时标记数据以提高可搜索性和可用性 .找到所需文件后，您可以使用机器学习系统使用更多标签进一步优化搜索。这个过程必须是连续的和自动化的，所以随着时间的推移，额外的结构会被开发出来，并且更容易搜索到您的数据湖以及更高的整体质量。
适应边缘。 随着来自传感器数据的新用例导致边缘计算的增长，来自边缘的流数据将变得站不住脚。您如何在边缘处理更多数据并将所需的数据带入云数据湖？随着边缘数据量的增长，边缘预处理将变得更加重要。
按行业创建分类法。 每个行业都没有标准的标签命名法。按部门进行一些常见的标记分类将使数据更易于搜索和提取，尤其是在研究和生命科学等协作环境中。
解决数据移动性问题。 为了实现真正的移动性，数据应该能够跨混合云环境驻留在不同的系统中，同时还可以本地访问这些环境中的服务。从专有存储系统解锁数据将控制权交还给 IT，并消除了将数据从一个平台移动到另一个平台的费用和麻烦。使用和访问数据的方式及其价值随时间而变化。通过对数据进行面向未来的验证，您可以适应变化和新要求。独立的数据移动和管理解决方案可以在这方面提供帮助。
建立正确的文化。 根据 New Vantage Partners 的 2021 年研究，领先的 IT 组织继续将文化——人员、流程、组织、变革管理——视为成为数据驱动型组织的最大障碍。数据驱动的文化不仅需要跨越分析师和业务线，还需要跨越 IT 基础架构团队。 IT 领导者需要发挥作用，帮助数据存储、服务器和网络专业人员重新定位他们的职责和日常任务，以建立以数据为中心的决策框架。工具和流程应该是跨职能的，允许对组织的数据资产进行整体视图，并围绕管理这些资产以实现组织收益的策略进行协作。

云数据湖之所以受到欢迎，是因为无需数据仓库所需的大量预处理即可以本机格式摄取数据。另一方面，数据湖已经成为数据沼泽，特别是对于非结构化文件数据，因为这些数据没有共同的结构。随着依赖它的 AI/ML 引擎的兴起，分析文件数据变得越来越重要。通过自动化文件数据的索引、搜索、收集和优化，云数据湖可以针对非结构化数据进行优化，而不会破坏其以原生格式摄取数据的吸引力。

走出煎锅，进入互联厨房 4 工业元界趋势：夸张还是革命？

物联网技术