数据湖到底是什么？和数据仓库数据中台又有什么区别？-MTV学习库

自从互联网进入大数据时代以来，出现了许多数据解决方案。最先流行的是数据库，然后是数据仓库，数据湖，然后是数据中心，现在又流行数据湖。站在数据时代的前沿，亚马逊、阿里巴巴、微软等各大云厂商都在开发基于数据湖的解决方案；

各大互联网公司也在基于开源数据湖和计算引擎建设自己的企业级数据湖。那么数据湖到底是什么？数据仓库和数据中心有什么区别？现有的数据湖解决方案有哪些？我们来看看吧~

数据湖是一个可以存储各种原始数据的大型数据仓库。它可以存储任何类型的数据，包括非结构化数据（如传感器数据）、结构化数据（如关系型数据库Mysql生成的行列数据）、半结构化数据（如XML数据、JSON数据）、二进制数据数据（例如音频和视频）；它可以进行数据生命周期管理。除了存储原始数据外，还可以存储数据处理后的数据（如流处理、批处理）；它可以支持多种分析场景，例如数据仓库分析、实时分析、商业智能分析、机器学习。

数据湖、数据仓库和数据中心有什么区别？从名字就可以看出来。所谓数据湖，就是存储数据的湖。湖里的水是流动的，可以接受其他江河湖海的水，然后流出。也就是说，所有数据都可以存储在数据湖中，无需任何处理；所谓数据仓库，就是存储数据的仓库。它必须有要求和目的。也就是说，数据仓库中的数据格式是有要求的。只有符合标准的数据才能入库。而且，数据仓库的建立是有目的的，比如以成本为导向，分析销售情况；所谓数据中台与阿里巴巴提出的概念是一致的。中台作为前台和后台的一部分，为业务赋能，为业务提供数据能力。

那么具体的数据湖系统是什么样的呢？抽象地包括数据存储层、数据加速层、数据处理层、数据计算层四部分。数据湖以对象块或文件为单位存储。在数据存储层，云用户一般使用S3和OSS对象存储，本地用户则使用HDFS进行存储。在数据加速层，主要取常用数据。用于集中存储，保证用户快速访问，降低网络带宽成本；在数据处理层，主要将数据文件封装成对业务有意义的内容，比如支持ACID（事务原子性、一致性、持久性、隔离性），支持、支持，开源解决方案包括Hudi；在数据计算层，主要负责数据任务的执行，比如Spark、Flink、HIve的批流处理等。

数据湖的应用非常广泛。我们可以基于云原生技术构建云原生数据湖、基于Flink等实时计算引擎的实时数据管道、基于云计算的一整套数据湖解决方案。如何构建云原生数据湖？这很简单。部署在底层进行资源管控，在基础上部署集群，使用其提供的HDFS进行存储，在HDFS上集成开源解决方案，最后集成数据计算引擎FLink，这样一个云原生数据湖是根据它而建的。

基于Flink的实时数据管道就更简单了。业务系统产生的数据首先上传到Kafka消息队列，然后通过实时计算引擎Flink进行数据清洗，最后导入数据湖。如果需要再次处理数据，则使用Flink计算引擎处理后导入数据湖。它不仅是一个实时数据管道，也是一个实时统一的流和批处理。

基于云的数据湖解决方案也非常简单。基于云厂商构建的云对象存储能力，可以贯穿数据接入、数据资源目录、数据引擎、数据集成开发、数据安全控制等全流程。中小企业只需为使用的资源付费。不得不说，云计算确实是一个很好的互联网模式。解决方案是免费的，资源是付费的。您为您使用的东西付费。

物联网、云计算、人工智能、5G技术的发展带动了数据湖的快速发展。物联网和5G使得越来越多的数据源产生。云计算让存储变得更便宜，人工智能需要分析更多的数据，因此越来越多的公司需要数据湖解决方案。云厂商也看好这一趋势，纷纷投入数据湖的开发和建设。数据湖人才的需求也在快速增长。站在风口浪尖，猪也能飞。赶快抓住数据湖的机会，成为飞猪吧~

结尾

给这篇文章的作者打赏

相关文章

网络流行语在新闻语言中使用的弊端及弊端分析

（每日一练）2016下半年山东教师招聘考试模拟试题

2017年上海事业单位考试：Swift按位和移位运算