首页  ·  知识 ·  大数据
数据质量管理方法
CIO之家的朋友  博客园  实践应用  编辑:Amanda   图片来源:网络
数据质量管理(DATAQualityManagenment)是指对上述过程中每个阶段可能出现引发数据质量的问题进行识别、监控、预警等相关管理活动。

数据处理的过程

数据处理的过程一般如下:

数据质量管理(DATA Quality Managenment)是指对上述过程中每个阶段可能出现引发数据质量的问题进行识别、监控、预警等相关管理活动。
通过改善和提高组织的管理水平是的数据质量进一步提升。

数据质量管理是一个循环管理的过程,其最终目标是通过可靠的数据,提升数据的使用价值,最终为企业赢得经济效益。


数据问题的影响因素

数据问题的来源可能源自上述过程的任一步骤,比如:

  • 数据产生、采集阶段:数据的准确性、真实性、完整性、失效性都会影响数据质量

  • 数据存储、技工阶段:会涉及对原始数据的修改,可能导致数据质量问题


数据质量评估方法

评估的维度
对于数据质量,我们一般会从一下几个维度进行评估

  • 完整性:度量哪些数据丢失了或者哪些数据不可用,描述数据信息缺失的程度,视情况氛围数据信息记录缺失和字段信息缺失

  • 一致性:用于度量那些数据的值在信息含义上是冲突

  • 唯一性:用于度量哪些数据是重复数据或哪些数据属性是重复的额

  • 真实性:用于度量数据是否真实、准确反应客观的实体存在或真实业务

  • 准确性(可靠性):用于度量那些数据是不准确或无效的

  • 关联性:用于度量哪些关联的数据缺失或未建立索引等

  • 时效性(及时性):用于度量是否能在需要的时候获得相关数据


数据质量管理

数据质量管理我们可以划分为三个部分:

事前

  • 梳理指标:确定对象(多表、单表、字段)

  • 制定规则:指定数据质量稽核规则

事中

  • 数据完整性:一般只数据条目完整性。常用方法为ODS层数据与抽取库(业务库)数据进行数据量对比

  • 数据唯一性:一般指对数据主键唯一性校验,可通过count(1)与cunnt(distinct key)对比

  • 数据非空性:主要分为两块,一是确定是否由于bug导致,是的话反馈问题,不是则需要想办法补回数据;
    二是对于字段为空的时候,应该使用缺省值填充

  • 数据有效性:校验数据是否与数据值域一致,比如范围、格式之类的,不一致则进行告警或处理

  • 数据准确性:一般分为两点,一是数据指标波动稽核,设置相关阀值;
    二是确定相关的几个表或字段之间是否存在逻辑冲突

  • 数据及时性:对于数据生成过程进行稽核,如果超出合理时间则进行告警,查看出问题的点

预警、告警的方法:

  1. 电话告警:一般在紧急、重要、需要及时处理的情况下采用

  2. 邮件告警:不需要及时处理的情况

  3. 短信告警:同邮件告警,不需要及时处理的情况

事后

  • 数据质量报告: 报表的形式展示数据质量模型明细数据

  • 告警以及整改:对于异常任务通知相关责任人,并要求整改

  • 订阅:订阅关系数据主题,相关人员进行查看

  • 反推:如果稽核发现问题不在数据开发,而在业务方,则要求相关业务负责人进行整改

本文作者:CIO之家的朋友 来源:博客园
CIO之家 www.ciozj.com 微信公众号:imciow
   
免责声明:本站转载此文章旨在分享信息,不代表对其内容的完全认同。文章来源已尽可能注明,若涉及版权问题,请及时与我们联系,我们将积极配合处理。同时,我们无法对文章内容的真实性、准确性及完整性进行完全保证,对于因文章内容而产生的任何后果,本账号不承担法律责任。转载仅出于传播目的,读者应自行对内容进行核实与判断。请谨慎参考文章信息,一切责任由读者自行承担。
延伸阅读