数据中台、数据仓库和数据湖没有直接的关系,在某个维度上他们为业务产生价值的形式有不同的侧重,数据中台距离业务更近,能更快速的响应业务和应用开发的需求,可追溯,更精准;数据中台是企业级的逻辑概念,体现企业 D2V的能力,为业务提供服务的主要方式是数据 API;数据中台距离业务更近,为业务提供速度更快的服务;数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
数据管理的概念从80年代提出已经接近40年了,数据治理的提法也有近20年了,而数据资产管理的提出基本是最近5年的事情,中国数据资产管理峰会对数据资产管理的定义为是对数据管理、数据治理及数据资产化的管理过程。
数据治理包含主数据、元数据,而数据资产涉及了主数据和主数据以外的一部分数据。所以可以理解为主数据是数据资产的一部分。
下面我们来看看他们的概念:
一、数据管理:为实现数据和信息资产价值的获取、控制、保护、交付以及提升,对政策、时间和项目所做的计划、执行和监督。
其实也通俗的理解为数据从哪里来?数据怎么存存在哪里?数据归类加工,数据怎么用,谁来用?与IT衔接的比较紧密。
二、数据治理:是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。
三、数据中心:数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。数据中心大部分电子元件都是由低直流电源驱动运行的。
数据中心的产生致使人们的认识从定量、结构的世界进入到不确定和非结构的世界中,它将和交通、网络通讯一样逐渐成为现代社会基础设施的一部分,进而对很多产业都产生了积极影响。不过数据中心的发展不能仅凭经验,还要真正的结合实践,促使数据中心发挥真正的价值作用,促使社会的快速变革。
四、数据中台:数据中台,解决的是企业数据的“存”、“通”、“用”的难题,几帮助企业实现连接数据孤岛,让一切业务数据化。
数据中台发展经历了四个阶段,分别是:数据库阶段、数据仓库阶段、数据平台阶段、数据中台阶段,从数据的角度来梳理这个过程分别是:
1、数据库阶段,主要是OLTP(联机事务处理)的需求;
2、数据仓库阶段,OLAP(联机分析处理)成为主要需求,主要解决BI和报表需求的技术问题
3、大数据平台阶段,大数据平台阶段,主要解决海量数据性能和多数据源,多异构数据的整合加工问题
4、数据中台阶段,数据中台阶段更强调数据复用和共享,多业务场景服务,同时强调企业组织管理架构的提升。
五、数据湖:数据湖这个概念,由Pentaho公司的CTO詹姆斯迪克森于2010年提出的,Wikipedia上说数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件,包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。
AWS定义数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。
微软的定义就更加模糊了,并没有明确给出什么是Data Lake,而是取巧的将数据湖的功能作为定义,数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力,这些能力使得用户可以存储任意规模、任意类型、任意产生速度的数据,并且可以跨平台、跨语言的做所有类型的分析和处理。
关于数据湖的定义其实很多,但是基本上都围绕着以下几个特性展开。
1、 数据湖需要提供足够用的数据存储能力,这个存储保存了一个企业/组织中的所有数据。
2、 数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。
3、 数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。
4、 数据湖需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。
5、 数据湖需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习;同时,还需要提供一定的任务调度和管理能力。
6、 数据湖需要具备完善的数据生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,能帮助用户完整详细追溯任意一条数据的产生过程。
7、 数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求。
8、 对于大数据的支持,包括超大规模存储以及可扩展的大规模数据处理能力。
综上,数据湖应该是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。
六、数据资产:国外对“数据资产管理”的定义为:数据资产管理(Data asset management 简称DAM)是规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。“数据资产管理”一词,在国内首次由DAMS(中国数据资产管理峰会)组委会正式提出。
本文作者:CIO之家的朋友 来源:知乎专栏
CIO之家 www.ciozj.com 微信公众号:imciow