首页  ·  知识 ·  大数据
集团企业分布式数据仓库构建
陈建辉 聂荣  万方数据   实践应用  编辑:德仔   图片来源:网络
市场经济高速发展,将涌现出越来越多的集团企业。集团企业具有以下特点:(1)各子公司均有相对自主的经营权,有的是独立法人,子公司具有较多的独立
市场经济高速发展,将涌现出越来越多的集团企业。集团企业具有以下特点:(1)各子公司均有相对自主的经营权,有的是独立法人,子公司具有较多的独立决策权;(2)集团总部主要负责整个集团的总体监控,是集团的决策和信息中心,在一定程度上与子公司的业务和决策重叠;(3)各子公司在地域上分布较广。为了提高集团总部的监控能力和各子公司的决策水平,集团企业管理者需要大量有价值的管理信息和决策信息。由于集团企业的各成员每天都要产生大量的数据,数据存储呈分布式,数据总量迅速增长。查询复杂化程度较高。因此传统的关系数据库在处理集团企业的大量数据时遇到了许多难以解决的问题,必须建立一个新的数据集成平台——数据仓库,以便形成一个综合的、面向分析的环境,为集团企业管理者提供决策信息支持。目前已有越来越多的集团企业开始建立数据仓库,并在此基础上构建其决策支持系统。
 

1 分布式数据仓库的概述

    数据仓库之父w.H.I将数据仓库定义为“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。

    数据仓库不仅包含了决策分析所需的数据,而且包含了处理数据所需的应用程序。与传统数据库应用不同,数据仓库是对企业内部业务数据的整合、加工和分析的过程.而不是一种可以直接购买的产品。

    在线分析处理)和数据挖掘功能。0LAP可以通过多维存储技术对大型、复杂数据集进行快速、高级的分析工作。数据挖掘功能能够揭示出隐藏在大量数据中的倾向及趋势。它允许组织或机构最大限度地从数据中获取价值。对过去业务进行分析,对将来的趋势进行预测,从而为企业决策提供数据支持、对企业的决策进行优化。分布式数据仓库是基于分布式平台的数据仓库技术,它将分布式技术和数据仓库技术结合起来,使其符合不同企业用户的需求。

2 分布式数据仓库的优势

    2.1 集中式数据仓库

    集中式数据仓库是许多企业构建数据仓库时经常采用的方案。集中式数据仓库系统规模大、结构简单,能够避免数据的冗余,数据仓库的分析数据直接由业务系统抽取。但对集团企业来说,集中式数据仓库并不是一个好的解决方案。在集团企业中,各子公司有自己相对独立和完整的事务处理系统,需要建立自己的局部数据仓库,以支持经营决策活动;集团总部要对整个集团的经营潘动进行监控,做出战略决策,也需要建立全局数据仓库,以支持集团的经营决策活动。如果采用集中式数据仓库的方案。会给数据仓库的使用和维护带来很多不便。

    2.2 分布式数据仓库

    对于集团企业来说,建立分布式数据仓库,虽然会带来全局数据仓库和局部数据仓库之间一定量的数据冗余,但是。它能够比较好地满足集团企业的需要。在集团企业建立分布式数据仓库的主要优势有以下几点:

    (1)各子公司可根据自己的业务特点和需要,建立局部数据仓库,便于各子公司对数据进行本地化分析;

    (2)各子公司独立维护自己的局部数据仓库,管理比较方便。数据也比较安全;

    (3)全局数据仓库可按照总部的分析需求,从各局部数据仓库中抽取数据,不与各子公司的业务系统发生联系,不需要进行大量数据清洗和转换,抽取的效率高;

    (3)若采用分布式技术,在构建数据仓库的初期,其软件、硬件的资金投入要比采用集中式技术的投入少,便于企业先期在分公司建立试点数据仓库.积累经验后再进行推广。

    (4)数据仓库的存储和处理能力可动态增长。存放在数据仓库中的数据量理论上无限制,如果数据仓库中的数据量将要超过现有系统的处理能力时,只要对现有系统进行简单扩展即可,这符合企业的业务发展规律;

    (5)在较短时期内局部数据仓库就能建好、运行并使局部组织受益。系统研制、上线周期短,实施效率高;

    (6)每个分公司从业务系统抽取数据对本地局部数据仓库进行更新,保证了更新的速度。同时本地数据仓库数据量相对较少.因此系统处理速度快。具有一定的实时性。综上所述,相对集中式数据仓库而言,在集团企业建立分布式数据仓库,能够满足多数集团企业当前和今后发展的需求。

3 面向集团企业的分布式数据仓库架构

    3.1 总体框架

    考虑到集团企业通常由一个核心企业(集团总部)和若干下属分公司组成,企业有着地域上分散、组织和管理上分层以及决策权分离的特点,面向集团企业的分布式数据仓库通常可采用层次化分布式框架结构,如图l所示。即根据集团企业本身的层次化和相对独立的组织结构。建立由一个全局数据仓库和多个局部数据仓库构成的相对集成的分布式数据仓库系统。下面对图1中的局部数据仓库、全局数据仓库及数据模式进行简要说明。

    3.1.1 局部数据仓库

    局部数据仓库包含局部站点上的历史集成数据,来源于各自实际的运行系统。除了数据范围是局部的外,局部数据仓库提供典型数据仓库的所有服务。不同的局部数据仓库中的数据和数据结构则可以不同。

    各个分公司仅管理和使用与本企业有关的数据信息,决策权也限制在本分公司范围内的各种经营问题上。所以建立本地范围内的局部数据仓库,可以方便地从分公司的各种业务系统提取数据,为分公司的决策系统使用者提供必要的信息支持。

   3.1.2 全局数据仓库

    全局数据仓库包含的数据范围涉及整个企业或组织,是整个企业内部公共的历史集成数据。与局部数据仓库的数据源不同。全局数据仓库的数据除了来自实际运作系统外,主要来自局部数据仓库和外部数据源,是对局部数据仓库中的数据进行重组、综合和集成后的信息。

    集团总部要管理整个集团的各种资源,在集团范围内进行宏观的战略决策,需要整个集团范围内的数据信息支持。针对具体决策。总部需要从成员企业局部数据仓库中提取一定粒度的相关决策主题域数据,加载至总部全局数据仓库,在总部进行综合分析。

    局部数据仓库间数据的重叠部分或公用数据必须协调一致。但是在组建局部数据仓库时。一般不能区分这些数据.所以最好把这些数据存放在全局数据仓库中。

    3.1.3 数据模式。

    全局数据仓库是对局部数据仓库中数据进行加工、综合处理后的结果。如何将局部运作系统中的数据映射到全局数据仓库中是成功建造分布式数据仓库环境的关键技术。全局数据仓库拥有一个公共的数据结构,反映企业内所有的公用数据。由于不同的局部数据仓库采用的逻辑模型、物理模型等很可能不同,所以从每个局部站点到全局数据仓库的数据映射一般不同。从局部数据仓库到全局数据仓库的数据映射的设计是一个逐步迭代的过程,初始时往往并不准确。但是随着时间的变化,用户反馈知识的积累,局部层的映射将会逐步趋于合理。

    3.2 系统结构

    在面向集团企业的分布式数据仓库系统中,集团总部和各分公司间一般通过互联网或数据专线连接。设计网络系统时应充分考虑到分公司和总部间以及不同数据仓库系统间可能的数据流量,以确保系统响应的及时性和执行效率。

    面向集团企业的分布式数据仓库系统结构如图2所示。各分公司实现单独的数据仓库和服务器,并采用主流的web技术实现业务系统。实现浏览器、web服务器、应用服务器和业务数据库的四层架构。基于web的四层架构可以更好地适应市场环境下不断变化的业务需求,更好的满足用户的需求。各分公司的各种业务数据、本地报表,各个应用系统的数据都可以作为数据仓库的数据源。使用专用的数据转移工具、数据抽取、清洗和转换工具将分公司各种数据源中的数据按照数据仓库模型转移到本地数据仓库系统中。此数据转移工具应支持各种关系数据库和其他0DBc数据源,具有完善的数据抽取、清洗和转换能力,提供完善的编程能力以定制复杂的转移规则。同时,分公司应建立自己的0LAP系统,对本地数据进行查询和分析。

    集团总部建立总部全局数据仓库,总部数据仓库的数据来源为各分公司局部数据仓库中的数据和总部其它数据源。总部数据仓库根据需求抽取各分公司经过综合的不同细节级别的摘要数据并将这些数据按全局数据仓库的模型装入到总部数据仓库中。总部建立集团级别的0LAP系统和数据挖掘系统,对集团数据进行查询分析和深度的数据挖掘,为总部的决策提供数据和信息支持。

4 结束语

    分布式数据仓库是数据仓库技术和分布式技术两者的结合,在集团企业采用文中提出的分布式数据仓库系统结构。一方面可以整合各分公司原有的业务数据,建立全新的数据仓库模式。为集团公司规模的进一步扩大打下基础;另一方面可以在现有数据的基础上,设计并实现决策支持系统,以辅助集团领导层的决策。

 
本文作者:陈建辉 聂荣 来源:万方数据
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的