1、元数据(metadata)
描述数据的数据,对数据及信息资源的描述性信息
大部分属性字段就是元数据。比如,性别,国籍,出生省份等。这个是最接近自然意义的的数据。
(1)在数据仓库领域中,元数据按用途分成:
(2)具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:
(3)基于应用,可以将元数据分成以下的若干种。
数据结构:数据集的名称、关系、字段、约束等;
数据部署:数据集的物理位置;
数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;
质量度量:数据集上可以计算的度量;
度量逻辑关系:数据集度量之间的逻辑运算关系;
ETL过程:过程运行的顺序,并行、串行;
数据集快照:一个时间点上,数据在所有数据集上的分布情况;
星型模式元数据:事实表、维度、属性、层次等;
报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;
数据访问日志:哪些数据何时被何人访问;
质量稽核日志:何时、何度量被稽核,其结果;
数据装载日志:哪些数据何时被何人装载
(4)元数据的基本管理
通过可视化的用户体验实现:
a.元模型添加、删除、修改、发布等维护功能;
b.了解已有元模型的分类、统计、使用情况、变更追溯
c.每个元模型的生命周期管理等等。
元数据管理实现针对元数据的基本管理功能。
元数据的添加、删除、修改属性等维护功能;
元数据之间关系的建立、删除和跟踪等关系维护功能;
提供元数据发布流程管理,可以更好地管理和跟踪元数据的整个生命周期;
元数据自身质量核查、元数据查询、元数据统计、元数据使用情况分析、元数据变更、元数据版本和生命周期管理等功能。
元数据分析功能主要实现针对元数据的基本分析功能。包括血缘分析(血统分析)、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。
2、引用数据(Reference Data)
元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比如,性别只能是男和女,男和女就是引用数据;国家的引用数据就是世界上这100多个国家和地区。
3、主数据(Master Data)
主数据(MD Master Data)指系统间的共享数据(例如,客户、供应商、账户和组织部门相关数据)。与记录业务活动,波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。在正规的关系数据模型中,交易记录(例如,订单行项)可通过关键字(例如,订单头或发票编号和产品代码)调出主数据。主数据必须存在并加以正确维护,才能保证交易系统的参照完整性。
从报告或维度建模角度看,主数据指基于其组织或配置指标的维度或层次,而不是实际情况或其自身测量结果。例如,收入、成本和利润是实际情况,而时间、地点、客户和供应商是维度。
在我们数据库设计中最重要的一些实体,是由元数据和引用数据实例的集合。DMReview 专栏作家 Jane Griffin 将主数据定义为“...用于为核心业务实体创建和维护全企业‘记录系统’,以记录业务交易并评定这些实体的业绩所需的信息。”
4、企业结构数据(Enterprise structure Data)
企业业务中所需的数据实体,可能是多个主数据的集合。不同行业的结构化数据会有很大不同
5、交易活动数据(Transaction Activity Data)
主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据,工厂生产产品,生产记录也是交易活动数据。
6、交易审计数据(Transaction Audit Data)这六大类数据。
对数据的所有活动都通过交易审计数据进行记录。比如我们对客户信息修改的操作,对交易的增加和删除操作,这些活动在很多关键系统(比如银行)都需要记录,以合符相应法规的要求(如 Basel II、萨班斯—奥克斯利法案)。
本文作者:马达Fumer 来源:知乎专栏
CIO之家 www.ciozj.com 微信公众号:imciow