您的位置  > 互联网

数据仓库VS数据湖数据中台三、具体区别?

一、简介

2.概念分析

数据库

数据湖

数据中心

3、具体差异

数据仓库 VS 数据湖

数据仓库VS数据中心

总结

4.湖库一体化

目前的数据存储解决方案

数据(同一个湖和一个仓库)

一、简介

数字化转型浪潮席卷了各种新旧概念。 数据湖、数据仓库、数据中台轮流火爆微信朋友圈。 有人说,“数据中台不算什么,数据湖才是趋势”。 其他人说:“再见。” 数据湖、数据仓库和数据中间平台已成为常态”……

企业在打开数字化大门之前,都会被各种概念绊倒。 那么他们三者有什么区别呢? 别着急,我先给大家分享两个有趣的比喻。

1.图书馆VS路边摊

如果把数据仓库比作一个“图书馆”,那么数据湖就是一个“摊子”。 去图书馆借书(资料)。 书的质量有保证,但是要等。 你在等什么? 只有管​​理员首先查明这本书属于哪个类别、在哪个书架上,你才能准确地获取到你想要的书。 路边小摊上,没有人会检查你。 各种书都有。 你可以自己去找他们。 边走边取书的过程比在图书馆方便多了,但是找书的过程是不可重复使用的,偶尔拿多了还是少了我们可能不知道。

2.银行升级版

假设数据仓库、数据湖、数据中心都是银行,可以提供现金、黄金等各种服务。 以前大家进银行之前都要问门卫,每个门牌上的号码对应的是哪项服务? 是现金还是黄金? 然后推相应的门,取出东西。 有了“数据中心”银行,大家一进来,就能看到标有“现金”、“黄金”汉字的窗口,一目了然。 你只需要去窗口,就会有专门的人帮你办理。

以上两个例子不一定全面,但基本可以说明三者的优缺点。 数据仓库标准化,但检索和使用数据的过程较长; 数据湖实时检索和使用数据,存储容量大,但数据质量难以保证; 数据中心能够准确、快速地响应业务需求,距离业务侧最近。

为了更清楚地区分三者,我们先来看看它们各自的定义和应用差异。

2.概念分析 1.数据仓库

数据仓库诞生于1990年,绝对算得上是“老前辈”了。 它是一个比较具体的功能概念。 目前数据仓库的主流定义是位于多个数据库上的大容量存储库。 其功能是存储大量结构化数据并进行频繁、可重复的分析,帮助企业构建商业智能(BI)。

具体定义:

数据仓库(Data)是面向主题()、集成()、相对稳定(非)、反映历史变化(时间)的数据集合,用于支持管理决策和全局信息共享。 其主要功能是通过信息系统的在线事务处理(OLTP)对组织多年来积累的大量数据进行分析,通过数据仓库理论独特的数据存储结构分析出有价值的信息。

数据仓库的作用:

数据仓库系统的作用可以实现跨业务线、跨系统的数据集成,为管理分析和业务决策提供统一的数据支持。 数据仓库可以从根本上帮助您将公司的运营数据转化为可以获得的高价值信息(或知识),并在正确的时间以正确的方式将正确的信息传递给正确的人。

实时数据仓库

实时数据仓库与离线数据仓库非常相似。 其诞生的背景主要是近年来企业对实时数据服务的需求不断增加。 里面的数据模型也会和中间平台一样分为几层:ODS、CDM、ADS。 但整体实时性要求极高,所以一般存储会考虑使用Kafka等日志库MQ,计算引擎会使用Flink等流计算引擎。

2.数据湖

数据湖是一个不断发展且可扩展的基础设施,用于大数据存储、处理和分析。 它就像一个大仓库,存储着企业多样化的原始数据。 它以数据为导向,可以实现任意来源、任意速度、任意规模、任意类型数据的全采集、全存储、多模式处理和全生命周期管理。 拥有强大的信息处理能力,能够处理几乎无限的并发任务或作业。

数据湖从企业的多个数据源获取原始数据。 数据可以是任何类型的信息,从结构化数据到完全非结构化数据,并通过与外部各种异构数据源的交互集成来​​支持所有类型的企业。 级应用。 结合先进的数据科学和机器学习技术,可以帮助企业构建更加优化的运营模型,还可以为企业提供其他能力,比如预测分析、推荐模型等,这些模型可以刺激企业能力的后续增长。

进入互联网时代,有两个最重要的变化。

一是数据规模空前。 一个成功的互联网产品每天可以拥有超过1亿的用户。 就像大家熟知的头条、抖音、快手、网易云音乐一样,每天都会产生数千亿的用户操作。 传统的数据仓库难以扩展,无法承载如此海量的数据。

另一个是数据类型变得异构。 在互联网时代,除了来自业务数据库的结构化数据外,还有来自App和Web的前端嵌入数据,或者业务服务器的后端嵌入日志。 这些数据一般是半结构化甚至非结构化的。 传统数据仓库对数据模型有严格的要求。 在将数据导入数据仓库之前,必须预先定义数据模型,并按照模型设计存储数据。

因此,数据规模和数据类型的限制使得传统数据仓库无法支撑互联网时代的商业智能。

2005年,它诞生了。 与传统数据仓库相比,它主要有两个优点:

随着对象存储的成熟,数据湖的概念在2010年被提出:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统(这意味着数据湖的底层不应该是与任何存储相结合)。

相应地,如果数据湖管理不好(缺乏元数据、定义数据源、制定数据访问策略和安全策略、移动数据、编制数据目录),就会变成数据沼泽。

从产品形态来看,数据仓库往往是独立的、标准化的产品。 数据湖更像是一种架构指导——需要搭配一系列外围工具来实现业务所需的数据湖。

3. 数据中心

大数据的应用逐渐暴露出一些问题。

在业务开发初期,为了快速实现业务需求,烟囱式开发导致了企业不同业务线之间,甚至同一业务线不同应用之间的数据分离。 两个数据应用的相同指标显示的结果不一致,导致数据的操作信任度下降。 如果您是一名操作员,当您想要查看产品的销售情况时,您会发现在两个报表上,名为“销售”的指标出现了两个值。 你感觉如何? 你的第一反应一定是数据计算错误。 我不敢继续使用这个数据。

数据碎片化的另一个问题是,大量的重复计算和开发导致研发效率的浪费,计算和存储资源的浪费,大数据的应用成本越来越高。

这些问题的根源在于数据无法共享。 2016年,阿里巴巴率先提出“数据中台”的口号。 数据中心的核心是通过数据服务化,避免数据重复计算,提高数据共享能力,赋能数据应用。 以前,数据是无用的,中间数据很难共享,也无法积累。 现在我们已经建立了一个数据中心,我们拥有了我们需要的一切。 数据应用的研发速度不再受数据发展速度的限制。 一夜之间,我们可以根据场景孵化出很多数据应用,这些应用让数据产生价值。

数据中心模板

在中心平台建设过程中,一般强调以下几点:

那么我们来看看阿里巴巴在数据中台方面的实践。

如上所述,只处理一次数据是构建数据中心的核心。 本质是实现公共计算逻辑的下沉和复用。 阿里巴巴数据中心提到了多种想法,例如:

三、具体区别 1. 数据仓库 VS 数据湖

相比之下,数据湖是具有不断发展的架构的新技术。 数据湖以任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)存储原始数据。 根据定义,数据湖不受数据治理的约束,但专家们一致认为,良好的数据管理对于防止数据湖变成数据沼泽至关重要。 数据湖在数据读取期间创建模式。 与数据仓库相比,数据湖的结构化程度较低,更加灵活,并提供更高的敏捷性。 值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,例如数据挖掘和数据分析以及提取非结构化数据。

2.数据仓库VS数据中心

数据仓库和传统数据平台的出发点是支撑技术体系,即首先要考虑我有什么数据,然后我能做什么。 因此,特别强调数据质量和元数据管理; 而数据中心的首要出发点不是数据而是业务。 一开始,你不需要看你的系统中有哪些数据,而是需要什么样的数据服务来解决你的业务问题。

在具体的技术处理环节上,两者存在着明显的区别。 数据预处理过程正在从传统的ETL结构向ELT结构转变。 传统的数据仓库集成处理架构是ETL结构,它是构建数据仓库的重要组成部分。 即用户从数据源中提取所需的数据,清洗数据,并将数据加载到数据仓库中。 大数据背景下的架构体系是ELT结构,随时从数据中心提取所需的原始数据,根据上层应用需求进行建模和分析。

三、总结

基于以上数据仓库、数据湖和数据中心的概念讨论和比较,我们做出以下总结:

4.湖库一体化

有人说“集成湖和仓库将成为下一个灯塔,数据仓库和数据湖架构很快就会退出群聊”。

2020年,大数据公司首次提出湖仓一体化(Data)的概念,希望将数据湖和数据仓库技术合二为一。 这个概念一出,各云厂商纷纷跟进。

数据(集成湖和数据仓库)是吸收了数据仓库和数据湖优点的一种新的数据架构。 数据分析师和数据科学家可以对同一数据存储中的数据进行操作。 同时,也能为企业的数据治理带来更多的便利。

1. 目前的数据存储方案

我们一直使用两种数据存储方法来构造数据:

现在很多公司经常搭建数据仓库和数据湖两种存储架构,同时一个大数据仓库和多个小数据湖。 这样,数据在两个存储中就会有一定程度的冗余。

2. 数据(全在一个湖和一个仓库)

数据的出现试图融合数据仓库和数据湖之间的差异。 通过在数据湖上构建数据仓库,存储变得更便宜、更有弹性,同时可以有效提高数据质量,减少数据冗余。 保持。 在ETL的建设中,它扮演着非常重要的角色。 它可以将数据湖级别的非结构化数据转换为数据仓库级别的结构化数据。

下面详细解释一下:

湖和仓库集成(数据):

根据该公司的定义:一种新范式,结合了数据湖和数据仓库的优点,解决了数据湖的局限性。 使用新的系统设计:直接在数据湖的低成本存储上实现与数据仓库类似的数据结构和数据管理功能。

解释和扩展:

湖仓一体化简单理解就是将面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供统一、可共享的数据库。

避免传统数据湖和数据仓库之间的数据移动,将原始数据、加工清洗后的数据、建模数据一起存储在一个一体化的“湖仓”中,实现业务的高并发、精准、高效。 性能历史数据和实时数据查询服务还可以承载分析报表、批处理、数据挖掘等分析服务。

湖仓一体化解决方案的出现,帮助企业构建全新的一体化数据平台。 通过对机器学习和AI算法的支持,实现数据湖+数据仓库的闭环,提高业务效率。 数据湖和数据仓库的能力充分融合,优势互补,连接上层多样化的计算生态。

它具有以下主要特点:

上图是给出的架构演进的参考图。

我们可以看到,传统的数据仓库目标非常明确,适合在合并各种业务数据源后进行业务BI分析和报告。 随着企业需要处理的数据类型越来越多,包括客户行为、物联网、图片、视频等,数据规模也呈指数级增长。

引入数据湖技术并用于承担通用数据存储和处理平台的作用。 由于其分布式存储和计算能力,数据湖还可以更好地支持机器学习计算。 在数据湖时代,我们通常可以看到To和Data仍然会同时存在。

随着大数据时代的到来,大数据技术是否有可能取代传统的数据仓库,形成统一的数据处理架构? 湖仓一体的概念被提出,云厂商正在进行快速推演和实践。

参考

2022年最给力的数据面试指南

数据仓库搭建保姆级教程

美团数据平台与数据仓库建设实践,超10万字总结