
什么是元数据?
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。(摘自百度百科·科普中国)
元数据具体有哪些内容?
看了百度的解释,元数据是个什么玩意儿,还是不太清楚,那我们看看他具体有哪些内容。元数据通常分为三类:业务元数据,技术元数据和操作元数据。
业务元数据,主要关注的是数据的内容和状态,以及数据治理相关的细节。业务元数据包括概念、主题域、实体和属性等非技术性的名称和定义;属性类型和其他属性特征;范围的描述;计算规则;算法和业务规则;有效的阈值及其定义。业务元数据的例子包括:
(1) 数据模型、数据集的定义和描述、表和列;
(2) 业务规则、数据质量规则、转化规则、计算和派生数据;
(3) 数据来源和数据继承;
(4) 数据标准和约束;
(5) 数据敏感性;
(6) 数据的解释说明或注释;
业务元数据,相当于目前我们发布的数据标准的增强版。而元数据管理,则远超过一般数据标准管理。
技术元数据,提供关于数据的技术细节、存储数据的系统,以及在系统内部和系统之间迁移数据的过程信息。技术元数据的例子包括:
(1) 物理数据库表、列名和属性;
(2) 数据访问权限、组、角色;
(3) 数据CRUD(创建、修改、更新、删除)规则;
(4) 数据ETL(抽取、转换和加载)任务细节;
(5) 数据继承文档,包括在上游和下游更改影响信息;
(6) 内容更新周期、作业进度和依赖项。
操作元数据,描述处理和访问数据的详细信息:
(1) 批处理程序的作业执行日志;
(2) 设计结果、平衡、控制测量和错误日志
(3) 报告查询访问模式、频率和执行时间;
(4) 补丁和版本维护计划及执行,当前补丁级别;
(5) 备份、保留、灾难恢复等的相关规定;
元数据也是数据,与普通数据一样,也具有生命周期,应按照数据生命周期进行全周期的管理维护,并时刻监督其质量。
元数据质量管理
元数据本身不是目的,它是一种组织获取关于数据的明确知识的方法,用以最小化风险和实现数据价值。元数据也是通过现有生产过程产生的,遵循数据生命周期,所以,元数据的质量,关系到数据的生产与使用,我们应该遵循一下原则:
(1) 可靠性。认识到元数据通常是通过现有流程生成的,并让流程所有者对元数据的质量负责。
(2) 标准。对元数据标准进行设置、执行和审核,一简化元数据集成的复杂度,并使元数据具有可用性。
(3) 改进。创建反馈机制,以便消费者可以向元数据管理团队报告不正确或过时的元数据。
与其他数据一样,元数据也可以进行归类和检查,对它的维护应该作为工作的可审计部分来安排和完成。
部分摘抄自:《穿越数据的迷宫,数据管理执行指南》作者:劳拉·塞巴斯蒂安·科尔曼