首页 » 从数据仓库到 Lakehouse

从数据仓库到 Lakehouse

这是由被誉为“数据仓库之父”的美国计算机科学家 Bill Inmon 为 Integrate.io 撰写的客座文章。Inmon 撰写了第一本关于数据仓库的书和第一篇杂志专栏,举办了关于该主题的第一次会议,并且是第一个教授数据仓库课程的人。 关于这个主题需要了解的五件事: 数据架构多年来一直在发展。在数据仓库之前,简单的应用程序处理数据。 数据仓库通过创建大量结构化数据彻底改变了数据架构。 文本 ETL 允许企业处理非结构化数据。 数据湖和机器生成的数据也改变了数据架构。 Integrate.io 是一个数据仓库解决方案,可以满足您的数据集成需求。 抽象的 数据架构正在发生演变。首先,有简单的应用程序。然后,出现了数据仓库。然后,人们将文本添加到数据仓库中。现在,有了数据湖屋。这些转变中的每一个都有其自身的相似性和特殊性。本文探讨了当今发生的架构转变 介绍 数据架构在 20 世纪 60 年代随着第一个应用程序的出现而开始,从那时起它就一直在发展。大多数进化都以极其缓慢的速度发生。数据架构的演变以光速进行。本文描述了这一演变和当今世界的事态。

数据仓库的兴起

仓库的演变 文本的挑战 文本 ETL 如何提供帮助 结合文本数据和结构化数据 机器生成的数据 机器生成数据的挑战 数据仓库与数据湖屋 结论 Integrate.io 见证了数据仓库和数据湖屋的演变。该数据仓库集成工具可以将仓库与湖泊集成,为您的企业提供湖屋的所有优势。Integrate.io 还通过 ETL、反向 ETL 和超 巴林电话号码列表 快速变更数据捕获 (CDC) 工具简化了数据集成流程。为什么不 亲自尝试 Integrate.io 14 天免费试用呢? 在数据仓库之前 最初,有一些应用程序(Jarke 等人,2000 年)。这些应用程序极大地减轻了繁重的工作(Gould等人,1991)。应用程序是通过研究最终用户的需求创建的,然后根据需求定制应用程序。为了加快开发过程,收集的需求非常具体地针对最终用户的直接需求(Gould 等,1991)。很快,组织中出现了大量应用程序(DeLone,1988;VanLommel 和 DeBrabander,1975)。 然后有一天,有人想要查找的不是特定应用程序的数据,而是整个组织的数据。不乏数据。

文本 ETL 如何提供帮助

有一种技术可以考虑到上述所有因素。该技术就是 文本 ETL,它读取非结构化文本并将其转换为数据库结构化格式。文本 ETL 考虑文本和上下文、分类法和本体、语言差异、字母差异等。文本 ETL 会生成结构整齐的数据库作为输出(Inmon 和 Nesavich,2007)。 一旦文本作为数据库出现,就可以使用标准分析工具进行分析。然后,文本 ETL 生成输出,允许文本(以数据库的形式)进入数据仓库。这样做 AERO 领先 可以极大地增加数据仓库提供的机会范围(Inmon 和 Nesavich,2007)。 结合文本数据和结构化数据 将文本数据与经典结构化数据相结合存在一些问题。问题的核心是找到一组通用的属性来进行分析。大多数文本(对话、文章等)不具有结构化数据中的关键结构信息。因此,在许多情况下,即使文本数据可以呈现为数据库格式,将文本数据与结构化数据进行比较也是很困难的(Inmon 和 Krishnan,2011)。 然而,以分析格式添加文本数据的能力增强了数据仓库的可能性范围。 但在公司中还发现了另一种类型的数据。该数据是机器生成的数据,即机械创建和传输的数据。

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注