您的位置  > 互联网

大数据横空出世,关系数据库hold不住了!

任东敏

德克萨斯大学阿灵顿分校EMBA,目前从事城市数字平台和大数据方向的解决方案开发和项目咨询。

一向孤傲的IT,却获得了文艺范儿。

你可能看不到,但天空中有优雅的云计算,地下有巨大的数据湖。

风中有一朵由雨组成的云,但有了云计算,这朵云就不能下雨,计算也看不见、摸不着。 三千弱水只能拿葫芦喝,但数据湖不能划船、钓鱼、灌溉。

如果说数据也有一个世界,那么关系型数据库就是武林中的佼佼者,已经独霸天下几十年了。 突然有一天,大数据出来了,大家发现关系型数据库已经撑不住了。

竞技场里发生了什么? 数据越来越多,数据类型越来越复杂,数据来源越来越广,数据应用越来越深入。 面对大数据的采集、存储、计算、管理和使用,关系数据库无能为力。

电子政务时代,政府数据来源仅限于部门应用系统和办公套件,区区TB的规模微不足道。 在智慧城市时代,构成城市的所有要素都必须数字化,数字孪生即将出现,引发数据前所未有的集中,很容易达到PB级。

政府期望的数据来源不断被放大——必须获取公安、交管、消防、环保、气象等各种传感器的城市感知数据,包括水、电、暖气、公交、地铁、出租车、电信、市政、环卫、园林。 交通、绿化、水务等所有城市基础设施的运行数据也要带过来,甚至共享出行、地图导航、电商、快递等本地生活平台的运行数据也要带过来。带来了。

如此多的城市数据的采集、存储和分发不仅无法使用关系数据库来处理,而且也无法使用关系数据库来处理。 你可能不相信,但是由于缺乏元数据管理机制,我们只关心存储容量,而不关心存储什么。

实践证明,城市大数据中心如果简单地复制海量杂乱无序的数据,无异于数据转储。 大数据主要是非结构化数据。 政务信息资源目录系统和结构化数据交换系统已经跟不上近十年政务信息化的发展变化,其技术和管理局限性日益凸显。

作为城市数据基础设施,城市大数据中心的技术难度并不亚于谷歌数据中心。 他们必须解决如何收集、储存、管理和服务的问题。 如果不能“容纳、管理、理解、可达”,就无法保证“一次聚集、多次共享”。

自此,数据湖应运而生。

2010年,James Dixon提出了数据湖的概念。

2011年,Dan Woods在福布斯发表《Big Data a Big New》,数据湖开始广泛传播。

数据湖和数据仓库的区别

数据湖是与数据仓库相反的概念。 数据仓库有两个局限性:第一,它只能回答预设的问题;第二,它只能回答预设的问题。 第二,数据已经被过滤和打包,看不到它的原始状态。

为了说明数据湖和数据仓库之间的区别,James Dixon 说:“如果数据集市是商店里的瓶装水,经过过滤、打包和结构化以供消费,那么数据湖就是大量更自然的水。状态。 。 数据湖中的数据来自不同的地方,用户可以进入数据湖提取自己需要的数据。”

数据湖的核心原则是集中存储完整的原始、未更改的数据,并且仅在提取数据时才对其进行转换。 数据湖存储各类数据,重点关注非结构化和半结构化数据,通过统一视图提供开放访问。 数据湖拥有强大的元数据管理能力,保证存储数据资源的语义一致性,这是大数据分析的基本前提。

城市数据湖和 数据中心类比

将城市数据湖与谷歌数据中心进行比较,不难发现数据湖的定位与搜索引擎类似。 其核心技术实现是对多源异构数据的自动化标注,从而实现像在搜索引擎上搜索一样的信息搜索。 需要寻找、抓取和使用。

亚马逊AWS、微软Azure等IT巨头积极采用数据湖概念并推动其实际落地。 许多数据仓库迁移到核心技术栈,将半结构化和非结构化数据存储在数据湖中,以弥补数据仓库的技术限制。

1.数据湖的基本定位

数据湖是城市的“数据工厂”,是城市大数据应用的“中央厨房”。

数据湖定位于数据采集、聚合和存储环节,是公共数据集和分析应用的来源。 狭义的数据湖只对应“存储”环节,而广义的数据湖则对应“入湖、存储、出湖”三个环节。

(1)数据聚合

接入多源异构数据源,拓展新的大数据和流数据采集能力,统一监控运行状态。

(2)数据标注

引入人工智能技术,实现元数据的自动化标注,升级为数据资产管理。

(3) 数据分布

提供一站式数据服务,从数据发现、准备到提取,按需即用。

2. 数据湖的服务对象

数据湖定位于提供原材料数据而非成品数据,重点解决数据供给侧的问题。

根据做业务和决策两类业务场景获取原始数据的共同需求,数据湖的服务对象不外乎两类:一类是生产数据内容产品的公共数据集构建者,比如建立人口数据库和法人数据库。 等基准数据,用于自然人和组织的统一身份认证; 另一类是分析应用开发商,生产数据分析产品,比如城市大脑等决策系统的开发,用于城市中长期规划、重大风险预警等。

3. 数据湖架构

数据湖由三部分组成:元数据平台、数据湖仓库和数据湖服务。

元数据平台用于数据资产注册、盘点、评估和处置,数据湖仓库用于可管理、可扩展的原生数据统一存储,数据湖服务用于提供外部数据发现、准备和提取服务。

4. 数据湖的核心特征

根据数据湖的基本定位,它应该具备以下核心特征:

(1)数据采集与传输

(2) 以原生格式存储,解压时再次转换

(3)元数据自动标注

(4)元数据标注质量的机器学习改进机制

(五)供需对接的数据资源市场机制

(6)数据可按需提取并立即使用

(7)数据资产全生命周期价值管理

5. 数据湖的技术难点

数据湖的技术门槛非常高,元数据的自动标注是最大的问题。

数据湖有点像图书馆员。 如果你不整理参考书目,你就找不到你想要的书; 如果你不编制数据目录,你就找不到你想要的数据。

您可以将数据湖视为具有元数据注释的机器人。 它必须时刻读取进入数据湖的数据——这篇文章、这张图片、这个视频、这个语音、这些传感器数据等等。等等,到底说了什么; 然后对其进行编目——数据从哪里来、作者是谁、标题是什么、主题词和关键词是什么,从而建立数据目录来支持数据资源管理和服务活动。

这就涉及到人工智能技术在元数据管理领域的综合应用。 例如,对于文档类型的数据使用自然语言处理,对于媒体类型的数据使用图像识别; 为了提高元数据标注的速度和准确性,还引入了机器学习。 原谅我孤陋寡闻,单一领域有非常优秀的公司,但利用多领域人工智能技术进行元数据管理并有这样的技术预研和储备的公司几乎没有。

其实不是技术上不可能,而是商业上是否可行。 虽然城市数据湖的技术复杂度高于谷歌数据中心,但如果可以预见,在不久的将来,城市数据的大规模集中和深度利用将是大势所趋,但有一个缺乏可用的城市数据基础设施,那么投资城市数据湖研发是理所当然的。