打破数据统一的七大原则,BI,BI综合,CIO之家

打破数据统一的七大原则

黎婷　　51cto　　实践应用　　编辑:谁的青春不折腾　　图片来源:网络

数据统一在数据分析领域里是个长期的挑战，从事数据分析的从业者希望在数据分析之前，来自不同实体的数据能够在同一个地方呈现出来。

一般而言，企业实现数统一有两种方法，提取转换加载(ETL)和主数据管理(MDM)。

提取转换加载(ETL)具有灵活性的优势，适合不同的数据来源，使程序员可以手工编写转换程序，能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低，提取转换加载带宽能超过20个数据源没有多少家公司。

主数据管理(MDM)，它与ETL类似的地方在于，预设一个“主记录”，每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是，MOM不是使用手动的定制脚本，而是依靠一套“模糊合并”规则，把所有不同的文件转换成主格式。

可难解的是，在数据量过大的情况下，不管是ETL还是MDM，都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化，不能依靠手动编写的程序。

著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题，提出数据统一的七条原则。

一、所有的可规模化系统，都必须自动进行绝大多数的操作。

二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。

三、需要进行具体的域操作时，只有协作性的系统才可实现规模化。

四、为了实现可规模化，任何的统一计算必须在多个核心和多个处理器上运行。

五、尽管存在第四条原则，但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

七、必须支持实时增量统一。

本文作者:黎婷来源:51cto
CIO之家 www.ciozj.com 微信公众号:imciow

BI综合

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

延伸阅读

也许感兴趣的

.BI建设项目的前期，如何收集和明确项目需求？

.公司如何从0搭建BI系统？

.三分钟实现 Spring Boot 集成 RabbitMQ，实现消息队列服务

.商业智能(BI)选型手册

.Kafka、RabbitMQ、RocketMQ 之间的区别是什么 ?

.BI、数据仓库、数据湖和数据中台内涵及差异点

.一篇文章详解企业BI选型

我们推荐的

.构建知识图谱：从技术到实战的完整指南

.企业数据分类分级从了解到落地指南

.数据分析规范

.如何基于用户分层构建运营策略

.数仓建设七大规范指南

.数据治理领域最容易混淆的16组术语概念辨析

.数据治理体系建设与实践

.如何在零售行业实施主数据治理

主题最新

.看透SAAS企业好坏的16个关键指标

.SaaS产品的五类核心指标

.构建普适通用的企业网络安全体系框架

.大数据安全体系介绍之技术体系篇

.构建知识图谱：从技术到实战的完整指南

.企业数据分类分级从了解到落地指南

.数据分类分级实践难点

.一文读懂数据资产管理

.CIO 四项法则构建安全敏捷数字能力

看看其它的

.SaaS产品的五类核心指标

.正确做数据治理的十个关键步骤

.软件开发安全流程实践原创

.DevOps的流程与规范介绍

.多租户SaaS平台的数据库方案

.大数据技术名词解释

.媒体数据中台建设方法论和落地实践

.最全团队管理手册

浅谈金融大数据

打破数据统一的七大原则

作者其它的文章

.打破数据统一的七大原则

收藏至微信

广告