无论是捉鬼敢死队还是分析数据:跨界
利用数据流(加入批处理和实时事件)使数据科学家和分析师能够解决复杂的问题。
各个流提供与特定维度相关的数据——股票价格、客户订单、设备指标。分析和应用程序可以由单一数据流提供服务,但用途有限且仅限于本地。
跨越溪流揭示了更宏大的可能性,充满了历史、背景和相关信号。当我们的捉鬼敢死队英雄(Venkman 和帮派)需要迎接挑战(并击败 Stay Puft 先生)时,他们联合起来——并开始行动!整体大于部分之和。
在我们的社区中,数据科学家、分析师和开发人员同样被要求采取行动。利用数据流——加入批处理和实时事件——使您能够解决复杂的问题。而且,与文克曼一样,有时您需要其他人带来他们的装备和帮助。以下是成功跨越溪流的四个重要组成部分:
1) 汇集数据、用例和人员。
加速创新、最大化效率和提供灵活性是复杂数据系统的既定优先事项。一个灵活的、不断发展的软件主干实现了这些目标。开源核心组件提供了对成功至关重要的长期敏捷性和互操作性。
工具不断发展,有时您需要使用新的幽灵陷阱。
2) 使用开源格式让您的数据堆栈面向未来。
数据可移植性长期以来一直是企业数据团队的神圣要求。围墙花园创造了未来的债务,供应商锁定有一个不言而喻的长期成本,通常是在商业拖累中付出代价。 使用开放格式存储数据。
CSV 和 JSON 多年来一直很受欢迎,Avro、Protobuffs、Parquet、Orc 和其他最近越来越受欢迎。它们有各自存在的理由,但每一个都基于将结构化数据传递给大量独立系统的原则,与下游的计算机科学无关。
随着数据规模的扩大以及移动数据的相关财务和延迟成本的增加,开放数据的概念现在包括内存中的格式,而不仅仅是保留在磁盘上的那种。现在,要求以任何方式复制、移动、序列化或翻译数据通常是不可接受的。特别是,Apache Arrow 的重要社区受益于它能够以最小的开销、零拷贝读取和快速大规模访问,为多种语言的一系列数据处理库提供内存数据。
但让我们记住,在捉鬼敢死队中,数据只是冒险的开始。
3) 将实时和静态数据的连接作为一项基本要求。
现代数据引擎必须汇集来自各种来源的数据。仓库、湖泊和半人马般的湖屋的行话现在是常见的意象。然而,事件流的日益流行是一个不那么安静的金丝雀,这表明静态数据不再是全部。
数据变化。现代工作负载处于不断变化的状态。 实时数据很重要。
数据引擎和处理库的架构必须能够处理实时和静态数据工作负载并在它们之间流畅移动。 对于将历史背景与当下事件信号相结合的系统来说,“持续智能”是一个流行词。应构建现代数据系统来处理实时数据、事件流和其他更新,作为一流的能力。这些应该是核心优势,而不是附加组件,而不是事后诸葛亮。
毕竟,正如我们在《捉鬼敢死队》中了解到的那样,守门人和钥匙大师在它们结合在一起之前的威力要小得多。
4) 始终将用户放在首位。
今天的数据用户拥有各种技能、工具、工作流程和优先事项。围绕共享平台凝聚团队,为个人服务,同时为团队注入活力。最大化个人效率和促进协作的数据系统推动业务价值。
开放数据软件照亮了道路。开放项目中合作与竞争的有趣组合产生了无与伦比的进步速度和独创性。组织起来鼓励互操作性,社区发展承诺增强、集成和用户体验升级。流行的小路变成了铺砌的道路。这样的系统使用户成为一支军队,同时支持任何甚至中等复杂用例所需的相互依赖的工作产品。
毕竟一个质子包强大,但四个合力是无敌的。
我不怕没有鬼。
物联网技术