Smart Talk 第 8 集:解锁数据湖屋的实时洞察
数据湖屋已成为一个灵活的、多用途的存储库。在这一期 Smart Talk 节目中,Stratola 首席执行官 Dinesh Chandrasekhar 和他的嘉宾 Starburst 首席执行官兼董事长 Justin Borgman 讨论了如何扩展数据湖站的功能,以包含实时数据和高性能查询,从而提供几乎实时的见解——这是一个越来越常见的用例。需要两项关键技术——Kafka 流和强大的查询引擎。
特别有趣的是他们对开源软件和开放格式重要性的看法,这些观点已经得到 Snowflake 和 Databricks 的验证,并宣布支持 Apache Iceberg。 Justin 分享了他对基准测试解决方案的建议 - 使用企业数据、运行实际查询、模拟规模,最后计算成本。
涵盖的主题包括:
- Kafka 用于将实时数据流式传输到数据湖中 (4:22)
- 开放格式的优势 (5:56)
- SQL 对 GenAI 的支持作用 (8:53)
- 雪花、数据块和冰山 (11:56)
- 灵活的数据存储库策略 (17:21)
来宾
贾斯汀·博格曼 (Justin Borgman),Starburst 首席执行官兼董事长
Justin Borgman 是大数据和分析领域的主题专家。在创立 Starburst 之前,他曾担任 Teradata(纽约证券交易所代码:TDC)的副总裁兼总经理,负责公司的 Hadoop 产品组合。 Justin 于 2014 年通过收购其公司 Hadapt 加入 Teradata,他是该公司的联合创始人兼首席执行官。 Hadapt 创建了“Hadoop 上的 SQL”,将 Hadoop 从文件系统转变为任何 BI 工具都可以访问的分析数据库。他于 2017 年创立了 Starburst,旨在让分析师能够自由地分析不同数据集,无论他们身在何处,而不会影响性能。
主持人
Dinesh Chandrasekhar 是一位技术传播者、思想领袖和经验丰富的 IT 行业分析师。 Dinesh 拥有近 30 年的经验,致力于 B2B 企业软件和 SaaS 产品的开发,为具有复杂架构的客户提供和营销复杂的解决方案。他还制定并执行了非常成功的 GTM 策略,在 LogicMonitor、Cloudera、Hortonworks、CA Technologies、Software AG、IBM 等多家公司向市场推出了多种高增长产品。他是一位多产的演讲者、博主和周末编码员。 Dinesh 拥有圣克拉拉大学 MBA 学位和马德拉斯大学计算机应用硕士学位。目前,Dinesh 经营着自己的公司 Stratola,这是一家以客户为中心的业务战略咨询和全栈营销服务公司。
资源
Smart Talk 第 7 集:可观测性中的基数、控制和成本
Smart Talk 第 6 集:AIOps 和 IT 监控的未来
Smart Talk 第 5 集:可观察性堆栈分解
Smart Talk 第 4 集:实时数据和矢量数据库
Smart Talk 第 3 集:现代数据管道和法学硕士
Smart Talk 第 2 集:GenAI 应用与动态数据的兴起
Smart Talk 第 1 集:动态数据生态系统景观
此处查看动态数据生态系统地图
在此了解有关 RTInsights 上动态数据的更多信息
成绩单
迪内什·钱德拉塞卡:
您好,欢迎收看本期数据和运动领导力智能讲座系列。我是主持人 Dinesh Chandrasekhar,Stratola 的首席分析师兼创始人。今天我们的嘉宾是 Starburst 首席执行官兼董事长贾斯汀·博格曼 (Justin Borgman)。 Justin 在安全和数据分析公司拥有出色的职业生涯,在 2017 年创立 Starburst 之前,他创立了一家名为 Had Adapt 的公司,该公司后来被 Teradata 收购,他在 Teradata 担任副总裁兼总经理多年。欢迎贾斯汀。那么让我们从 Starburst 开始吧?我想很多人都知道Starburst这个品牌,但也有相当多的人也渴望更多地了解Starburst。请告诉我们有关 Starburst 的信息,特别是它的起源以及您创办公司的动力。
贾斯汀·博格曼:
是的,我很高兴。正如您在简介中提到的,我在数据分析领域已经工作了大约 15 年,可以追溯到被 Teradata 收购的第一家初创公司。当然,我相信你们的观众都知道,坦率地说,Teradata 几十年来一直是数据仓库分析领域的领导者。该模型确实需要将所有数据转移到专有数据库中,即企业数据仓库。从那里您可以运行快速分析并了解您的业务。我认为我们看到的是一个基本上颠覆该模式的机会,特别是在两个方面。第一,能够在数据湖中利用开放表格式,从而为您提供数据仓库性能。但在数据湖中,有时人们今天将其称为 Lakehouse 架构,并且能够访问其他数据源并将另一个数据库中的表与该数据湖中的表连接起来。
例如,您可能有一个 Oracle 数据库或 SQL Server 数据库,并且您希望将其中一个系统中的表与数据湖中的 Iceberg 文件格式的表连接起来。这本质上就是我们的技术所做的事情。这是称为 Trino 的基础技术。这是一个开源项目。它最初脱胎于 Facebook,许多最大的互联网公司、LinkedIn、Airbnb、Netflix、Apple 等都在做自己的数据仓库分析。同样,在该模型中,数据湖是中央存储库,他们可以获得非常低的拥有成本,将数据存储在这些数据湖中,并且还能够连接其他表。所以 Starburst 实际上只是该开源项目的商业化。我们提供 Trino 企业版,它具有额外的安全功能、额外的连接器、额外的性能优势以及大量其他特性和功能。
迪内什·钱德拉塞卡:
谢谢你。我确实想更深入地了解 Trino 和 Iceberg 等所有内容。我认为这些都是今天的重要话题,但我可以退一步问一下您是否要看看数据架构的演变,我们有传统的数据库,然后出现了数据仓库,随着数据的爆炸性增长和处理更多实时数据的需求,出现了 Lakehouse 架构和其他架构。因此,在您的世界中,当您观察数据架构、数据湖屋的演变时,在您的案例中,我认为您还有一个称为“冰屋”的概念,这对组织有效处理实时数据的能力有何影响?
贾斯汀·博格曼:
是的,很好的问题。为了向听众澄清,冰屋概念实际上只是一个基于冰山的湖屋。因此,数据以冰山表格式存储,您可以在此基础上进行数据仓库式分析。最终结果提供了非常低的总拥有成本以及处理您所描述的近实时数据的能力。我们的想法是,我们看到市场上流数据技术的数量大幅增加,例如 Kafka,客户越来越多地使用该技术将数据近乎实时地流式传输到数据湖中。
从我们的角度来看,这就是我们想要选择的地方。我们构建了一种称为流式摄取的东西,您可以在其中连接到 Kafka 流,我们将自动将其转换为 Iceberg 表,并使它们几乎可以即时查询。因此,由于这种架构,现在确实使企业能够更快地、更新鲜地了解其数据。
迪内什·钱德拉塞卡:
谢谢你。因此,Lakehouse 肯定会成为一种非常统一的批量和实时分析架构方法。我的意思是,您如何看待这种架构转变正在改变当今各行业的 BI 和传统决策?怎么改变了?
贾斯汀·博格曼:
是的,我确实看到它极大地改变了事情。我认为这种架构的驱动因素之一和好处之一就像经济一样简单。最终,这些传统的数据仓库可能会变得非常昂贵。这实际上可能是我在 Teradata 工作期间遇到的第一大抱怨之一。没有人说过 Teradata 是一个糟糕的数据库。它实际上是一个很棒的数据库系统。它恰好非常昂贵,而且一旦你加入了,你就加入了,并且有点投入。
因此,这个数据湖为您提供了更大的灵活性,因为您使用的是开放格式,这允许客户选择正确的引擎来访问我的数据。它为您提供了很大的灵活性,减少了锁定,而且还允许您将数据存储在真正便宜的商品存储中,在云环境中,这种存储越来越多地是 S3 或 Google GCS 或 Azure Data Lake 存储。即使在本地部署领域,我们也看到 Dell 或 IBM 等公司提供的 S3 兼容对象存储,您基本上可以在其中获得 S3。因此,这成为一种非常非常经济高效地存储数据的通用基础层,这也是推动这一转变的部分原因。
迪内什·钱德拉塞卡:
好吧,现在让我们开始吧,因为我认为这有点像您的产品背后的整个驱动因素,多年来它作为实时数据空间中非常强大的查询引擎而受到欢迎。您如何看待它在现代数据生态系统中的作用演变?特别是正如您提到的,还有其他开源技术,例如 Apache Iceberg,它们也提供了不同数据系统之间的大量互操作性等。那么,它与其他一些开源技术的结合是如何改变现代数据生态系统的呢?
贾斯汀·博格曼:
我认为它正在真正成为数据仓库中的 Postgres。 Postgres 当然是一个广泛部署、非常流行的开源数据库。它是传统的 R-D-B-M-S 单节点。 Trino 有点像 MPP 大规模并行处理数据仓库分析。因此,对于您的大数据、数据仓库风格的活动,这现在已成为事实上的开源选择。
现在有时人们会问,相比之下 Spark 怎么样? Spark 是一个出色的通用处理引擎,但并未真正针对 SQL 分析进行优化。我认为就您之前关于商业智能和决策的观点而言,SQL 仍然是这些类型用例的语言,无论是连接 BI 工具、运行报告,甚至构建数据驱动的应用程序,SQL 仍然是一种非常重要的接口语言,而 Trino 是当今市场上的头号引擎。
当你将它与 Iceberg 之类的东西结合起来时,正如你所说,你现在基本上拥有了一个完整的数据仓库。你有查询引擎部分,你有存储部分,现在你有一个完整的开放数据仓库。它们还可以在任何地方运行,可以在本地运行,也可以在云中运行。因此,您对该堆栈有很大的灵活性。
迪内什·钱德拉塞卡:
我可以问你一个小问题吗?既然你提到 SQL 是当今许多数据存储的首选,我相信在过去的 30、40 年里,没有什么能够肯定地动摇这一点,但随着人工智能技术和自然语言处理的出现,人们现在可以谈论数据民主化,你现在可以将数据分发给甚至可能没有同等知识的业务分析师,但可以使用自然语言来告诉我,让我知道这个特定地区最近三个月的销售额,等等四。
显然,在内部将其转换为 SQL,然后查询引擎或其他什么,对吧?那么您是否也看到了这种转变? SQL 会蓬勃发展并生存下来,还是我们未来看待查询数据的方式会发生转变?
贾斯汀·博格曼:
这是一个非常好的问题,我确实认为你说到点子上了。我认为随着时间的推移,生成式人工智能作为一种界面将逐渐变得非常流行,因为就你的观点而言,它会让任何人坦白地使用它。所以现在它更像是谷歌对企业中所有数据的体验,这是非常令人兴奋的。事实上,我们已经将其早期版本纳入我们自己的产品中,我认为每个人都会这样做,它将成为赌注。
但我确实认为,在幕后,这些技术实际上只是将自然语言转换为 SQL 语法,以便引擎实际执行。所以我认为语言仍然很重要,但它可能更多地成为生成式人工智能自然语言风格界面背后的实现细节。我认为你说得对。这让我想起当计算器甚至图形计算器被发明时,突然我们不需要知道所有的公式以及如何进行长除法,因为我们的计算器已经解决了这个问题。我认为这就是生成式人工智能将为我们做的事情。
迪内什·钱德拉塞卡:
毫无疑问,更容易访问数据。我认为这就是我们的前进方向。所以绝对是一个令人兴奋的空间。所以我们谈到了 Trino。我可以换个话题再问你一次关于 Iceberg 的事吗?这变得非常非常流行。我看到业内更大的巨头开始采用 Iceberg 作为一种非常自然的方式来表达我们是可互操作的,我们支持它等等。因此,随着组织越来越多地采用实时分析,冰山在实现更高效和可扩展的数据管理方面发挥什么作用?对此您有何看法?
贾斯汀·博格曼:
是的,我认为这是一件大事。我认为这是 2024 年人工智能以外最重要的故事。我之所以这么说是因为这种格式已经存在了几年,但实际上今年市场已经解决了关于哪种格式将获胜的争论。在一段短暂的时期内,存在三种流行的竞争形式,问题是谁会获胜?
我们的赌注始终是 Iceberg,我想我会说我们预测会这样,但我认为今年夏天市场已经达成了真正的共识,当时 Snowflake 和 Databricks 都宣布了自己支持它的意图,这就平息了像 Iceberg 是事实上的标准以及它对客户的作用这样的争论,到目前为止,客户是真正的赢家。这是因为他们现在可以以自己拥有的格式存储数据,他们可以控制这种格式,这些格式对他们来说是可移植的,而不是掌握在某些数据库供应商手中,而这些供应商将在未来几十年内将他们劫持。
他们拥有这一点,这意味着他们可以互相发挥引擎作用。他们可以说,好吧,Starburst 将完成这项工作量,这将为我提供最佳的性价比。也许 Snowflake 更适合这种工作负载。也许 Databricks 更适合该工作负载,并且客户可以在这些引擎之间进行选择,这真是太棒了。当引擎竞争时,您作为客户获胜,我认为这确实是 Iceberg 所提供的。
迪内什·钱德拉塞卡:
但这是一个很好的总结。我认为这清楚地表明了冰山展望的重要性,因为公司正在标准化一种模型,我认为每个人都更具互操作性,并且我认为这对客户有利,正如您所说,不必与特定供应商绑定,但允许他们更加开放和灵活。这无疑是一个很好的观点。
贾斯汀·博格曼:
完全正确。
迪内什·钱德拉塞卡:
Justin,我们为什么不在这里讨论一个客户示例,因为 Trino 和 Iceberg 是今天谈话的中心,请告诉我们一个客户案例研究,您在其中看到了这一点的实际使用,以及他们通过采用 Trino 和 Iceberg 看到了哪些好处?
贾斯汀·博格曼:
很高兴。有很多例子,从像 DoorDash 这样的领先互联网公司到像康卡斯特这样的更传统的企业,它们已经存在很长时间了,这两种情况都在脱离我所说的传统数据仓库平台,将工作负载转移到传统数据仓库平台。
以康卡斯特为例,这是非常传统的本地数据仓库。就 DoorDash 而言,我将其称为非常传统的云数据仓库。无论哪种情况,他们最终想要做的都是在 SQL 分析上获得更好的 TCO,并提供与最新尖端技术配合使用的灵活性,这些技术可以连接到这种通用格式。
同样,对于我们之前的观点,我认为他们也在尝试做的事情(这与人工智能主题相关)是他们正在为数据架构奠定基础,让他们现在可以轻松访问训练自己的模型或执行 RAG 工作流程所需的数据,最终支持自己的人工智能雄心。我认为很多企业都在早期思考人工智能能为我做什么?这如何给我带来竞争优势?
虽然他们正在弄清楚这一点,但我认为他们都非常清楚的一件事是,他们自己的专有数据将成为赋予他们竞争优势的核心。因此,建立一个数据基础设施,让您能够以低成本、高性能的方式访问所需的内容,是该过程中的核心步骤。
迪内什·钱德拉塞卡:
因此,作为一种好处,我可以双击它并特别用实时数据说或问您吗?它通常会带来挑战,例如随着源的变化、目标需要适应等而对模式进行模式演化更改,以及数据版本控制。 Apache Iceberg 如何帮助解决像这样的现代数据平台中的一些挑战?
贾斯汀·博格曼:
因此,存在版本控制和时间旅行的概念,并且能够了解数据在我们的平台内如何演变。我们还添加了数据沿袭和数据质量指标,我们能够捕获这些指标并将其呈现给用户,以便您能够真正了解这些数据来自哪里、如何演变、如何迭代,并最终向最终用户再次提供这种可见性。
迪内什·钱德拉塞卡:
好的。然后,您在 Trino 中谈到了如何组合不同的数据源并进行一些联合查询等。该架构是否更倾向于集中式数据源或数据存储,或者是将它们保留在原处,但提供将它们组合起来并为消费者提供可见性的能力?我们在这里看到的州内架构是什么?
贾斯汀·博格曼:
是的,很好的问题。两者都有,我认为这总是让我们难以阐明自己的价值主张,因为人们习惯了一种模型和一种思维框架,这将所有内容集中在传统数据仓库中,否则你就无法访问它。我认为我们看到世界发展的方式是,将会有一个中央存储库,毫无疑问它将成为一个数据湖,它将存储大部分数据或尽可能多的数据,因为你将获得经济效益,你将获得以冰山格式存储尽可能多的数据的性能优势。因此,我们认为这对于您的大量数据来说是一个很好的策略,但我们也认为总会有一些用例您想要访问其他数据源。
也许这是探索性分析。我只是有一个假设,我想进行测试,我认为这对我们的业务来说可能非常重要,但我不想开发所有 ETL 管道并经历所有流程,只是为了一个想法,只是为了我的预感。嗯,这是一个很好的用例,能够使用您拥有的东西加入位于其他地方的桌子会改变游戏规则。它实际上可以让您在几分钟而不是几周内证明该假设,让团队以您需要的方式移动数据。所以我认为两者都很有价值,但我们认为它是湖中的大多数,然后超越那个湖是我们思考它的方式。
迪内什·钱德拉塞卡:
因此,如果我是一家第三方企业,也就是说,正在寻找现代数据平台,那么当我考虑 Trino 与其他替代方案时,我希望在清单中考虑哪些关键性能考虑因素?那么我的首要任务是处理实时数据查询,确保低延迟等。这些就是我的要求。我希望在清单中考虑哪些因素?
贾斯汀·博格曼:
是的。好吧,我给出的最重要的两条建议是,第一,使用您实际使用的真实查询。我认为人们使用行业基准是很常见的,这可能是一个非常粗略的步骤,但它不会反映你的工作负载。从来都不是。每个公司都有自己想要做的事情。因此,最好尽可能地模拟最终状态。
这意味着在整理自己的概念证明并进行基准测试时,要利用自己的查询和数据。您永远不应该完全信任其他供应商的基准测试。甚至我们自己的。我们有它们,您可以查看它们,但您应该使用自己的查询和自己的数据亲自测试它们。
我要说的第二件事也是确保模拟规模,规模很重要,因为这至少是我们与客户找到一些机会的地方,比如说更换他们购买的供应商,在 POC 流程中,他们认为供应商满足了他们的需求,但当他们达到真正的生产规模时,它就无法处理。
这就是我认为利用像 Trino 这样的开源技术也有很大好处的地方,这些技术已经在可以想象的最大规模上得到了证明,就像苹果正在以疯狂的规模运行它一样,显然 Facebook 也疯狂的规模。所以这个东西可以工作。它在这种规模下发挥作用。这应该会让你安心一些。但即便如此,我还是想说在您自己的基准测试过程中亲自模拟它,以真正确保这些不同的技术能够满足您在生产中的需求。凉爽的。
然后我可能要添加的第三部分是成本。成本也很重要,对吧?成本和性能实际上只是同一枚硬币的两个方面。您也需要在基准测试中考虑这一点,对吧?您不仅仅要选择最快的一个。您想选择性价比最好的。因此它也是组件的重要组成部分。
迪内什·钱德拉塞卡:
我同意。我认为对于许多正在评估解决方案的人来说,这是一个主要的清单项目。那么也许让我们从趋势的角度来结束这个话题。我只是想问你,今天数据领域发生了很多事情,对吗?因此,有数据仓库供应商、Lakehouse 供应商、数据湖供应商,以及一些替代方案、实时分析数据库等等。
对于买家来说,选择绝对是广泛且令人困惑的。那么,从新兴趋势的角度来看,您是否看到实时数据处理、我们刚才谈到的数据湖屋架构以及整个开源生态系统方面正在发生某种融合?您认为是否存在任何类型的融合,可以让买家在不久的将来变得更加清晰?
贾斯汀·博格曼:
我愿意。我认为我们开始看到非常流行的模式经常出现,这些模式起源于互联网、超大规模,然后随着时间的推移转化为企业。我认为我们现在正处于它进入企业的阶段。我看到的模式正在利用 Kafka 等技术来进行流处理。当然,你有多种选择。你可以做Confluence,你可以做亚马逊的版本。您可以选择所有这些开源平台,这很棒。我认为 Iceberg 肯定,对于存储数据的格式,对我来说这似乎是您可能做出的最安全的选择。然后在引擎方面,再次为正确的工作找到正确的引擎。我认为如果是 SQL Analytics,我们会说 Trino 和 Starburst 是最好的选择,但你应该向自己证明这一点。
如果您正在训练机器学习模型,您可能会使用 Spark。这些就是我们看到的模式。我认为这四种技术在未来几年将在开源数据架构中非常流行。同样,开源为您提供了随着时间的推移能够混合和匹配组件的灵活性,这将使您的架构经受住时间的考验。我认为你真正想要做的并不是创造技术债务,而这些债务在 10 年后将很难取代。开源为您提供了这种灵活性。
迪内什·钱德拉塞卡:
喜欢这一点。谢谢。我认为我们应该用那句精彩的话来结束这一切。贾斯汀,非常感谢您今天加入我们。我认为这是一次很棒的对话,让我们更多地了解 Trino 和 Iceberg,以及 Starbust 如何提供这个奇妙的平台,在您的平台上结合了两全其美的优点。非常感谢您并感谢您加入我们。
贾斯汀·博格曼:
谢谢你,迪内什。这是我的荣幸。
物联网技术