屋之间的唯一区别是使用 Delta Lake 或 Apache Iceberg。然而,数据湖屋的想法超出了特定技术的范围。相反,它基于在规划阶段应仔细考虑的原则。 Lakehouse 概念基于七个基本原则,下面将对此进行更详细的解释。
1. 开放性:相比闭源技术,Lakehouse 更倾向于开源标准,以确保数据的寿命并通过非专有技术和方法(例如解耦存储和计算设备)促进协作。
2.数据多样性:在Lakehouse中,所有数据都是平等可访问的,包括半结构化数据,结构化数据和半结构化数据都受到平等对待。这是通过使用模式来支持的。
3. 多样化的工作流程:用户可以通过多种方式与 Lakehouse 中的数据进行交互,包括笔记本、自定义应用程序、BI 工具,支持多种工作流程,不受限制。
4.数据处理多样化: Lakehouse同时支持流式处理和批处理。此外,Delta 架构能够将流式传输和批处理技术集成在单层中,以实现全面的数据处理。
5. 语言独立性: Lakehouse 旨在支持所有访问方法和编程语言。在实践中,支持多种方法和语言,例如Apache Spark。
6、数据存储和数据处理解耦:与传统数据仓库相比,Lakehouse将存储 美国消费者电子邮件列表 层和计算层分离。因此,它提供了混合和匹配技术的灵活性、通过云对象存储显着降低成本以及可管理的可扩展性。
7. ACID 事务: Lakehouse 利用 ACID 事务,克服了数据湖的关键限制并提供了更高的可靠性和效率。为此,他们管理事务数据处理并确保数据操作的完整性。
尽管数据仓库有着悠久的历史并且不断发展,但它们缺乏适应当今数据处理需求的能力。反过来,数据湖解决了许多挑战,但失去了数据仓库的一些好处。 data Lakehouse 试图通过结合两种方法的优势来平衡这些差异。通过这种方式,创建了一个结合了两种架构解决方案最佳功能的解决方案。 Data Lakehouse架构仍处于早期发展阶段,需要时间成熟并建立逐步应用的最佳实践。与此同时,数据仓库和数据湖继续用于特定用例。在许多情况下,这两种方法可以共存并相互补充,以应对眼前的挑战。
结论
当数据仓库和数据湖首次出现时,它们是应对分析挑战的突破性解决方案,旨在解决当时技术领域的常见问题。 Lakehouse 概念是当今的产物,它表明机器学习不仅被行业内的大公司所使用,而且也被小公司所使用。本文讨论的概念为合适的问题解决方法提供了线索。不幸的是,没有一种放之四海而皆准的解决方案。虽然传统数据仓库在当今的数据环境中似乎已经过时,但事实并非完全如此。许多公司尚未达到实施数据仓库等复杂系统所需的数据成熟度。也许他们只需要一个简单的数据仓库。另一方面,数据工程师通常希望使用最新的技术并实现最新的架构。因此,开发人员必须了解问题的原因,然后寻找合适的解决方案,而不是应用最炒作的概念。
您可以在我们之前发布的博客文章中找到来自 adesso 世界的更多令人兴奋的主题。
5.数据沼泽:这种高度的灵活性往往会导致产生大量的数据,这通常被称为“数据沼泽”。
数据湖最初被吹捧为解决关系数据仓库问题的灵丹妙药,有望节省成本、可扩展性和性能改进。 Cloudera 和 Hortonworks 等公司将它们作为“一刀切”的解决方案进行营销。然而,现实更为复杂,因为查询数据湖需要高级技能。最终用户在使用 Hive 和 Python 等工具时遇到了困难,导致用这些所谓的神奇解决方案取代传统数据仓库的尝试失败了。
数据湖为存储和分析多样化的大型数据集提供了灵活且可扩展的解决方案。然而,为了最大限度地发挥数据湖的优势并克服数据湖的挑战,公司必须制定全面的战略并实施强大的数据管理和数据安全措施。
数据湖和数据仓库之间的决定取决于公司的特定数据需求和用例,并且在许多情况下,包含这两种解决方案的混合方法可能是有益的。本博客文章的第二部分解释了这种混合方法。
您可以在我们之前发布的博客文章中找到来自 adesso 世界的更多令人兴奋的主题。