您的位置  > 互联网

元数据管理是数据治理的核心和基础

元数据是一个比较抽象且难以理解的概念,所以在第一章中,我们首先了解什么是元数据。 本章总共提出了三个概念。

1.元数据是描述数据的数据。

这是元数据的标准定义,但是有点抽象,技术生也能理解。 如果观众缺乏相应的技术背景,可能会在现场感到困惑。 这个问题的根源其实是知识的诅咒:我们知道一些东西,但很难向不知道的人解释清楚。

为了打破这个魔咒,我们不妨借用一个比喻来形容元数据:元数据就是数据的户口本。 我们想一下,一个人的户口本是什么? 它是人的信息登记册:里面包含了人的姓名、年龄、性别、身份证号、地址、籍贯、迁出时间、地点等,除了这些基本的描述信息之外,还有血统人与家人的关系,如父子、兄弟姐妹等。所有这些信息加起来就是对人的全面描述。 那么所有这些信息就可以称为这个人的元数据。

同样,如果我们想要清楚地描述一个实际的数据,以一张表为例,我们需要知道表名、表别名、表所有者、数据存储的物理位置、主键、索引以及表中有哪些字段。桌子。 这个表和其他表的关系等等,这些信息加起来就是这个表的元数据。

通过这样的类比,我们对元数据的概念可能就清晰多了:元数据就是数据的户口簿。

2、元数据管理是数据治理的核心和基础。

为什么说元数据管理是数据治理的核心和基础? 为什么我们在做数据治理的时候需要先做元数据管理呢? 为什么它的地位如此特殊?

让我们想象一下,一位将军要去打一场战争。 他必须掌握哪些信息? 是的,这是一张战场地图。 很难相信一个手中没有军事地图的将军能够赢得一场战斗。 元数据相当于所有数据的地图。

在这张数据图中,我们可以看到:

我们有什么数据?

数据分布在哪里?

这些数据是什么类型?

数据之间有什么关系?

哪些数据被频繁引用? 哪些数据没人关心?

……

所有这些信息都可以在元数据中找到。 如果我们想做数据治理,但手里没有这张图,那么做数据治理就像盲人摸象一样。 事实上,我们后续文章中要讲到的数据资产管理和知识图谱,大部分也是基于元数据的。 所以我们说:元数据是组织内部的数据图谱,是数据治理的核心和基础。

3、元数据是描述数据的数据,那么有没有描述元数据的数据呢?

有。 描述元数据的数据称为元模型。 元模型、元数据和数据之间的关系可以用下图来描述。

我们不会深入讨论元模型的概念。 我们需要知道的是:

元数据本身的数据结构也需要定义和标准化。 定义和规范元数据的是元模型。 元模型的国际标准是CWM( ),是一个成熟的元数据管理工具,需要支持。 CWM 标准。

2. 元数据从哪里来?

在大数据平台中,元数据贯穿于大数据平台上数据流动的全过程,主要包括数据源元数据、数据处理过程元数据、数据主题库元数据、服务层元数据、应用层元数据等。 下图以数据中心为例,展示元数据的分布范围:

业界通常将元数据分为以下几种类型:

技术元数据:数据库表结构、字段约束、数据模型、ETL程序、SQL程序等。

业务元数据:业务指标、业务代码、业务术语等。

管理元数据:数据所有者、数据质量责任、数据安全级别等。

元数据收集是指在数据生命周期中获取元数据、组织元数据、然后将元数据写入数据库的过程。

为了获取元数据,需要采用多种方法。 在采集方式上,采用直接数据库连接、接口、日志文件等技术手段,采集结构化数据的数据字典、非结构化数据的元数据信息、业务指标等。 、代码、数据处理过程和其他元数据信息是自动和手动收集的。

元数据收集完成后,组织成与CWM模型一致的结构,并存储在关系数据库中。

3.有了元数据,我们能做什么?

我们先看一下元数据管理的整体功能架构图。 有了元数据,从这张图中我们可以清楚地看出我们可以做什么:

1.元数据查看

通常,元数据以树形结构组织,并根据不同的类型来浏览和检索元数据。 例如,我们可以浏览表结构、字段信息、数据模型、指标信息等。通过适当的权限分配,元数据查看可以极大地提高组织内部信息的共享。

2. 数据沿袭和影响分析

数据沿袭和影响分析主要解决“数据之间的关系是什么”的问题。 由于其重要的价值,一些厂商将其从元数据管理中单独提取出来,作为一个独立的重要功能。 但笔者认为数据沿袭和影响分析实际上来自于元数据信息,因此仍然在元数据管理中进行描述。

谱系分析是指获取数据的血缘关系,以历史事实的形式记录数据的来源和处理过程。

以某表的血缘关系为例,血缘关系分析显示以下信息:

数据沿袭分析对于用户来说具有很大的价值。 例如,在数据分析过程中发现问题数据时,可以依靠血统溯源,快速定位问题数据的来源和处理过程,减少分析的时间和难度。

数据血统分析的典型应用场景:某业务人员发现《月度营销分析》报告数据存在质量问题,向IT部门提出异议。 通过元数据谱系分析,技术人员发现《月度营销分析》报告受到上游四个FDM层的影响。 不同数据表的影响可以快速定位问题根源,低成本解决问题。

除了谱系分析之外,还有影响分析,可以分析数据的下游流向。 当系统升级改造时,如果修改了数据结构、ETL程序等元数据信息,依靠对数据的影响分析,可以快速定位元数据修改会影响哪些下游系统,从而降低系统的影响。系统升级改造。 风险。 从上面的描述我们可以知道,数据影响分析与谱系分析正好相反。 谱系分析指向数据的上游来源,而影响分析则指向数据的下游。

影响分析的典型应用场景:某组织因业务系统升级,修改了“ ”表中的字段:长度由8变为64。需要分析本次升级对后续相关系统的影响。 对元数据“”进行了影响分析,发现它对下游DW层相关的表和ETL程序有影响。 IT部门定位到影响后,及时修改了相应的下游程序和表结构,避免了问题的发生。 可见,对数据进行影响分析有助于快速识别元数据变化的影响,将可能出现的问题消灭在萌芽状态。

3.数据冷热分析

冷热分析主要统计数据表的使用情况,如:表与ETL程序、表与分析应用、表与其他表之间的关系等。从访问频率和业务需求角度,统计数据的冷热情况进行分析。 度分析使用图表来展示表格的重要性指标。

数据的冷热分析对于用户来说具有很大的价值。 典型应用场景:我们观察到有些数据资源长期闲置,没有被任何应用程序调用,也没有被其他程序使用。 此时,用户可以参考数据的冷热报告,结合人工分析,对不同冷热的数据进行分层存储,以更好地利用HDFS资源,或者评估是否对这部分数据进行离线处理。已经失去了保存数据的价值。 贮存。

4. 数据资产图谱

通过元数据的处理,可以形成数据资产地图等应用。 数据资产图谱一般用于宏观层面的信息整理,全局视角的信息整合和整理,展示数据量、数据变化、数据存储状况、整体数据质量等信息,为数据管理部门和数据提供参考。决定者。

5.元数据管理的其他应用

元数据管理还有一些其他重要功能,例如:

元数据变更管理。 查询元数据的变更历史,比较变更前后的版本等。

元数据比较分析。 比较相似的元数据。

元数据统计分析。 用于统计各类元数据的数量,如各类数据的类型、数量等,方便用户掌握元数据的概要信息。

4. 总结

元数据相当于数据的户籍和地图,是数据治理的核心和基础。

元数据产生于从数据生产、数据访问、数据处理、数据服务到数据应用的各个环节,整体上可分为技术元数据、业务元数据和管理元数据三类。

元数据收集并存储到数据库后,可以生成热度分析、血缘关系分析、影响力分析、数据资产图谱等应用。 元数据管理可以使数据描述更清晰、更容易理解、可追溯、更容易评估其价值和影响。 元数据管理还可以极大地促进组织内部和外部的信息共享。