元数据管理(大数据标签体系)

以下文章来自石秀峰《谈数据》。作者:石秀峰来源:谈数据,本文经授权转载发布。在数字时代,企业需要知道自己有什么数据,数据在哪里,谁对数据负责,数据中的值意味着什

以下文章来自石秀峰《谈数据》。

作者:石秀峰

来源:谈数据,本文经授权转载发布。

在数字时代,企业需要知道自己有什么数据,数据在哪里,谁对数据负责,数据中的值意味着什么,数据的生命周期是什么,需要保护哪些数据安全和隐私,谁使用数据,数据用于什么商业目的,数据的质量如何等等。这些问题都需要通过元数据管理来解决。如果没有有效的元数据管理,企业的数据资产可能会成为拖累企业利润的“包袱”。

— 01 —

什么是元数据?

元数据是关于数据组织、数据字段及其关系的信息。简而言之,元数据是描述数据的数据。概念总是很粗糙,对于没有IT背景的人来说很抽象,很难理解。这里有几个例子。

示例1:歌词中的元数据

有一首歌叫《小芳》,80后都很熟悉。歌词里有这么一句:“村里有个姑娘叫小芳,长得不错,也很善良。”让我们来分析一下这首歌词。姓名:肖芳;性别:女生(女);外貌:好看;性格:善良;地址:村里。在歌词中,“小芳”是被描述的对象,“姓名”、“性别”、“外貌”、“性格”、“住址”是描述“小芳”的元数据。

示例2:户口本中的元数据

除了姓名、身份证号、出生日期、住址、国籍等信息。,还有家庭关系,如夫妻关系、父子关系、兄弟关系等。这些信息是描述一个人的元数据。通过户口本里的元数据,我们不仅可以知道一个人的基本信息,还可以知道他的家庭关系。

示例3:库中的元数据

所有的图书馆都使用一个叫做“图书目录”的文件夹来管理他们的图书。图书目录包含图书名称、编号、作者、主题、介绍、摆放位置等信息。,用于帮助图书管理员管理和快速查找图书。元数据就像图书馆的图书目录一样,可以帮助数据管理员管理数据。

例如:元数据就像一本字典。

词典包含一个词的基本信息,如它的注音、词义、词组、例句,以及它的字体结构、相关引文、出处等。另外我们可以通过拼音或者偏旁找到这个词。所有这些信息都是对单词的详细描述,它们是描述单词的元数据。

示例5:元数据就像一张地图

地图是用线条、符号、颜色、文字注释等描绘和显示地球表面的自然地理、行政区域和社会经济状况的地图。按一定比例。通过地图,你可以知道你在哪里,你从哪里来,你要去哪里,你要去哪里。元数据也有这样的特点,它可以帮助企业了解自己拥有哪些数据,这些数据存储在哪里,数据的来源、目的地和处理路径等。

元数据和数据的区别在于,元数据不描述具体的实例或记录,IT部门和业务部门都需要高质量的元数据来理解现有的数据;元数据比一般的数据类别更广泛。它不仅表示数据的类型、名称、值等信息,还提供数据的上下文描述,如数据的业务域、取值范围、数据关系、业务规则、数据源等。

5W1H模型可用于理解元数据,如表16-1所示:

知识类型

定义

技术示例

商业例子

谁负责数据接口的开发?

谁负责金融领域和商业领域?

什么

做什么还是什么?

CRM和DW有什么数据血缘关系?

企业市场管理业务领域的指标体系包括哪些指标?

当...的时候

什么时候?

提取、转换和加载(ETL)作业何时运行?

我正在分析的数据上次刷新是什么时候?

在哪里

它在哪里

所有类型的销售订单都分布并存储在哪个系统的哪个数据表中?

我在哪里可以找到按营销活动显示我们的社交媒体分析的报告?

怎么

怎么,怎么做?

如何设置数据质量的管理规则?

如何获得产品的竞争优势?

为什么

为什么?

数据质量问题的根本原因是什么?

为什么老客户一直流失?

— 02 —

元数据的类型

根据应用领域或功能的不同,元数据一般可以分为三类:业务元数据、技术元数据和运营元数据。

1.业务元数据

元数据描述了数据的业务含义和业务规则。通过定义业务元数据,使人们更容易理解和使用业务元数据。元数据消除了数据的模糊性,使人们对数据有一致的理解,避免“自说自话”,从而为数据分析和应用提供支持。

常见的业务元数据有:

业务定义、业务术语解释等;业务指标名称、计算口径、衍生指标等;业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;数据的安全或敏感级别等。

2.技术元数据

元数据是数据的结构,便于计算机或数据库识别、存储、传输和交换数据。元数据技术可以为开发者服务,让他们更加清楚数据的存储和结构,从而为应用开发和系统集成奠定基础。技术元数据也可以服务于业务人员,通过元数据理清数据关系,让业务人员更快的找到想要的数据,进而分析数据的来源和去向,支持数据的血脉追溯和影响分析。

常见的技术元数据有:

物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;数据存储类型、位置、数据存储文件格式或数据压缩类型等;字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;调度依赖关系、进度和数据更新频率等。

3.操作元数据

操作元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于数据管理责任到部门和个人,是数据安全管理的基础。

的常用操作元数据有:

数据所有者、使用者等;数据的访问方式、访问时间、访问限制等;数据访问权限、组和角色等;数据处理作业的结果、系统执行日志等;数据备份、归档人、归档时间等。

— 03 —

元数据管理的目标

企业元数据管理的本质是有效利用企业数据资产,使数据发挥尽可能大的价值。元数据管理可以帮助业务分析师、系统架构师、数据仓库工程师、软件开发工程师等相关利益方清楚地知道企业拥有哪些数据,存储在哪里,如何提取、清理和维护这些数据,并指导用户使用这些数据。

以下元数据管理目标是企业的普遍需求。

1.建立指标解读体系。

满足用户对业务和数据理解的需求,建立企业内部知识传递的标准信息承载平台,建立业务分析知识库,实现知识共享。

能够回答下列问题:

企业有哪些数据?什么是企业有效客户?有效客户和客户有何区别?什么是产品的生命周期?这个数据还叫什么名字?数据仓库中的存储过程是谁写的?它用来干什么?现在还有在用吗?

典型应用:数据资源目录、业务术语表

2.提高数据可追溯性。

用户可以清楚了解来龙去脉、业务处理规则、转换情况等。提高数据的可追溯性,支持数据仓库的增长需求,减少人员变动带来的影响。

3.数据质量审计系统

通过非冗余和非重复的元数据信息提高数据完整性和准确性。元数据管理解决的问题是如何对业务系统中的数据进行分类管理,建立报警和监控机制,在出现故障时及时发现问题,为数据仓库的数据质量监控提供基础资料。

— 04 —

元数据管理技术

从技术角度来看,元数据管理技术主要包括元数据收集、元数据管理、元数据应用和元数据接口。

1、元数据采集

在数据治理项目中,常见的元数据包括数据源元数据、数据处理流程元数据、数据仓库或数据主题库元数据、数据应用层元数据、数据接口服务元数据等。

元数据收集服务提供各种适配器来满足上述元数据的收集需求,并将元数据经过集成处理后存储在中央元数据仓库中,实现元数据的统一管理。在这个过程中,数据采集适配器非常重要。元数据获取不仅要适应各种数据库、ETL、数据仓库和报表产品,还要适应各种结构化或半结构化数据源。

(1)关系数据库

通过元数据适配器从Oracle、DB2、SQL Server、MySQL、Teradata、Sybase等关系数据库中收集数据库表结构、视图、存储过程等元数据。关系数据库一般提供元数据桥,比如Oracle的RDBMS,可以快速读取元数据信息。

(2)2.NoSQL数据库

元数据收集工具应该支持来自NoSQL数据库的元数据,如MongoDB、CouchDB、Redis、Secondary、HBase等。大多数NoSQL数据库适配器利用自己的能力来管理和查询模式。

(3)数据仓库

对于主流的数据仓库,基于其内部的查询脚本,可以定制和开发相应的适配器来收集其元数据。比如MPP数据库Greenplum,其核心元数据存储在pg_database、pg_namespace、pg_class、pg_attribute、pg_proc中,可以通过SQL脚本收集。Hive表结构信息存储在外部数据库中,Hive提供show table、describe table等语法查询其元数据信息。

当然,也可以使用专业的元数据收集工具来收集数据仓库系统的元数据。

(4)云中的元数据

随着公共云的成熟,通过提供安全的云连接,使用云企业元数据管理作为核心it基础设施的扩展已经成为现实,尤其是在中小型企业中。云元数据管理通过各种上下文来改善信息访问,并将实时元数据管理、机器学习模型和元数据API推进到流数据管道中,可以更好地管理企业数据资产。

(5)其他元数据适配器

建模工具:PowerDesigner、ERwin、ER/Studio、EA等建模工具适配器。ETL工具:PowerCenter、DataStage、Kettle等ETL工具适配器。BI工具:Cognos、Power BI等前端工具中的二维报表元数据采集适配器。Excel适配器:采集Excel格式文件的元数据。

当然,目前市面上主流的元数据产品,没有一款能够做到“通用适配”,在实际应用过程中,或多或少需要进行定制化开发。

2、元数据管理

从技术角度来看,元数据管理一般包括元模型管理、元数据审计、元数据维护、元数据版本管理、元数据变更管理等功能。

(1)元模型管理

元模型管理是指基于元数据平台构建符合CWM的元数据仓库,实现元模型的统一集中管理,提供元模型的查询、添加、修改、删除、元数据关系管理、权限设置等功能。,并支持概念模型、逻辑模型和物理模型的收集和管理,使用户可以直观地了解现有元模型的分类、统计、使用、变化跟踪以及每个元模型的生命周期管理。同时支持应用开发的模型管理。

支持元模型的全生命周期管理。元模型生命周期中有三个状态:设计状态、测试状态和生产状态。

设计态的元数据模型,通常由ERWin、PowerDesigner的等设计工具产生。测试态的元数据模型,通常是关系型数据,如Oracle、DB2、MySQL、Teradata等;或非关系型数据库,如MongoDB、HBase、Hive、Hadoop等。生产态的元数据模型,本质上与测试态元数据差异不大。

通过元数据平台对应用开发三种状态的统一管理和对比分析,可以有效降低元数据变更带来的风险,支持下游ODS和DW的数据应用。

(2)元数据审计

元数据审计主要是对元数据仓库中采集的,但没有正式发布到数据资源目录中的元数据进行审计。在审计过程中,支持数据验证,并修复了一些问题,如缺少语义描述、缺少字段、类型错误、缺少代码或无法识别的字符代码。

(3)元数据维护

元数据维护是指对信息对象的基本信息、属性、依赖关系、依赖关系、组合等元数据进行增加、修改、删除、查询、发布等操作。它支持根据元数据字典创建数据目录,打印目录结构,根据目录查找和搜索元数据,查看元数据的内容。元数据维护是最基本的元数据管理功能之一。技术人员和业务人员将使用该功能查看元数据的基本信息。

(4)元数据版本管理

当元数据处于一个相对完整和稳定的时期,或者处于一个里程碑的末尾,就有可能最终确定元数据发布一个基线版本,以便在将来跟踪、检查和恢复不同或错误的元数据。

(5)元数据变更管理

用户可以自己订阅元数据。当订阅的元数据发生变化时,系统会自动通知用户,用户可以根据指引在系统中进一步查询变化的具体内容及相关影响分析。元数据管理平台提供元数据监控功能,一旦监控到元数据发生变化,会第一时间通知用户。

3、元数据应用

(1)数据资产地图

按照数据域对企业数据资源进行全面的盘点和分类,根据元数据字典自动生成企业数据资产全景图。地图可以告诉你你有什么数据,在哪里可以找到它们,你可以用它们做什么。数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程,通过不同级别的图形显示粒度控制,满足不同业务应用场景下的图形查询和辅助分析需求:

元数据管理(大数据标签体系)插图

图:数据资产地图示例图:数据资产图示例

(2)元数据血缘分析

元数据分析将告诉您数据来自哪里,以及它经历了什么处理。其价值在于,当发现数据问题时,可以通过数据的血缘关系追根溯源,快速定位问题数据的来源和处理过程,降低数据问题调查分析的时间和难度。

元数据管理(大数据标签体系)插图(1)

图:元数据血缘分析示例图:元数据血缘分析示例

(3)元数据影响分析

元数据分析会告诉你数据去了哪里,经过了什么处理。其价值在于,当发现数据问题时,可以通过数据的相关性进行追溯,快速发现哪些应用或数据库使用过这些数据,从而将数据问题的影响降到最低。该功能常用于分析数据源元数据变化对下游ETL、ODS、DW等应用的影响。

血缘分析是向上追溯,影响分析是向下追溯,这就是这两个功能的区别。

(4)元数据寒凉分析。

元数据分析会告诉你哪些数据是企业常用的,哪些数据属于死数据。它的价值在于将数据的活动性可视化,让企业中的业务人员和管理人员可以清楚地看到数据的活动性,从而更好地控制数据,处置或激活死数据,进而为数据的自助分析提供支持。

(5)元数据相关度分析

元数据关联分析会告诉你数据和其他数据之间的关系,以及它们之间的关系是如何建立的。度分析是从与一个实体关联的其他实体及其参与的处理两个角度来查看特定数据的使用情况,形成一个实体和参与的处理的网络,如表和ETL程序、表和分析应用、表和其他表的关联等。,从而进一步理解实体的重要性。

4、元数据接口

建立统一的元数据查询和访问接口规范,将企业的核心元数据完整准确地提取到元数据仓库中进行集中管理和统一共享。

元数据规范主要包括接口编码、接口响应、接口协议、接口安全、连接方式、技术实现、调用方式、消息格式等。

接口编码方式:接口编码方式必须在接口的头信息中注明,常用的接口编码方式有UTF-8、GBK、GB2312、ISO-8859-1。接口响应格式:元数据接口常用的报文格式,XML或JSON接口协议:REST/SOAP协议连接方式:POST接口安全:Token身份认证接口地址:http://url/service?[query]

写在最后的话

数据已经成为提升企业竞争力的核心要素,有效管理和利用数据已经成为企业的迫切需求。越来越多的企业使用元数据管理工具来管理云计算、物联网和数据湖中产生的数据,从而更容易理解、更快速有效地发现和管理企业数据,实现数据的价值。

本文摘自《一本解释数据治理策略、方法、工具和实践的书》,由出版社授权发布。

来自微信官方账号:产业互联网前线

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/113748.html

发表回复

登录后才能评论