首页  ·  知识 ·  大数据
数据仓库/数据集市体系结构的改进
潘宝娟  万方数据  实践应用  编辑:dezai  图片来源:网络
1 数据仓库与数据集市 (1)数据仓库(DW)的定义 有关数据仓库这一概念目前还没有统一的定
 1 数据仓库与数据集市
    (1)数据仓库(DW)的定义
    有关数据仓库这一概念目前还没有统一的定义,其中比较公认的是由数据仓库之父W.HJnmon在《BulldingtheDatawarehouse》一书中给出的定义:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合。
    数据仓库处理的数据与一般的信息系统中的数据不同,它来自结构不同的、分布的数据源,包括细节数据、综合数据、历史数据和外部数据。在美国,数据仓库技术和应用的发展很快,近年来已成为仅次于Intemet的又一技术热点。数据仓库的发展是市场激烈竞争的结果,因为成功的数据仓库系统可以为企业带来巨大的经济效益以及良好的信息服务。数据仓库技术的真正意义在于帮助人们制定能够改进商业活动的决策。
    基于数据仓库的决策支持系统需要从企业长期的业务活动所积累的大量数据中分析企业的发展规律和市场变化趋势,一般不对数据仓库中的数据进行更新操作,主要进行经常性的复杂查询操作。数据仓库与操作型数据库有很大的区别,所以需要将两种环境分开。两种数据环境的区别主要表现在以下几个方面:
    ①系统性能不同:在操作型系统中,数据的输人、更新和删除等操作很频繁,实时性要求高,一般要求在极短的时间内得到响应,否则会影响用户的使用。而在面向分析的数据仓库中,数据一旦进人数据仓库,就很少被更新。但决策用到大量数据的复杂查询分析,这些复杂的查询操作可能会花费较长的时间,如几分钟甚至几十分钟,如果在操作型数据环境中进行数据分析,会严重影响系统的性能。
    ②数据访问方式不同:各种数据源对数据仓库的用户来说是透明的,而数据库的用户需要考虑数据库的结构。
    ③数据格式不同:操作型系统存放的是细节数据,不同的数据源数据格式可以不同;而数据仓库中既存放细节数据,又存放各种粒度级别的综合数据,所有数据以提高查询速度为目的进行存储和管理。
    除此,数据仓库中还需要包括来自外部数据源的数据、半结构化/非结构化数据和历史数据。所以用于分析的数据仓库环境与操作型数据环境必须分开,以免相互影响、相互干扰。数据仓库体系结构的要求:不能妨碍操作型数据系统,具有数据抽取和转换功能,管理当前数据和历史数据,快速响应复杂的查询,并提供有效的分析工具。
    能满足这 些要求的数据仓库一般具有以下特性:
    ①基于维模型;
    ②保留历史数据;
    ③包括详细数据和概括性数据;
    ④在保持一致性的前提下,将多个数据源的数据集成在一起;
    ⑤面向主题,如销售、金融、保险等。
    (2)数据集市(DMart一DataMart)
    企业级数据仓库中包含的是海量数据(TB数量级),信息涵盖整个企业,所以创建这样一个数据仓库往往需要花费大量的资金,以及大量的人力和物力,需要很长的开发周期,这样势必影响用户对系统的兴趣和信心。相对而言,数据集市是针对企业某个部门的,规模较小,开发周期较短,可以很快投人应用,使用户尽早获益。
    大型数据仓库的建设往往从数据集市的建设开始,这些数据集市在数据仓库建成之前就发挥作用了。但为了防止各部门的数据集市成为信息孤岛,在开始建立数据集市前必须考虑数据集市的结构和管理方法,一般采用与数据仓库相同的规则和管理方法,使之成为未来数据仓库的一部分。因此可以认为数据集市是一种简化的数据仓库,是企业级数据仓库的一个子集,面向某个特定的主题,主要为企业各部门的中层决策者提供服务。
    数据集市具有以下特点:
    ①规模小,灵活;
    ②数据集市的粒度一般比数据仓库小,因为其需求更明细、更具体;
    ③开发工作一般由业务部门来组织、设计、实施和维护;
    ④能够快速实现,代价低,开发周期短,风险小;
    ⑤有利于功能的扩展,数据集市可集成形成中心数据仓库或分布式数据仓库。
  2 构建OMart/D讨体系方法
    创建数据集市的方法主要有自顶向下和自底向上两种方法,这两种方法各有特色,各有利弊。理论上研究得较多的是自顶向下的方法,即由中心数据仓库通过分发数据构成非独立的数据集市。
    (1)自底向上构建独立数据集市
    先开发各个部门的DMart,以递增、进化的方式逐步实现数据仓库13]。这种方法的开发周期较短,在建好各部门数据集市的情况下,企业级的DW开发比较简单。这种方式建立的数据集市,其数据来源于企业内、外的异构数据源,这种数据集市称为独立数据集市,如图1所示。


    这种方式的不足之处与处理方法:
    ①如果独立数据集市的构造和增殖不加控制,则不利于将数据集市集成到企业中心数据仓库中,这样在将这些数据集市集成到数据仓库时往往需要对它们进行较大的修改。造成集成困难的主要原因有:商业规则不同、数据格式不统一、数据集市设计方案的表达方式不同,等等。为了解决数据集市集成困难的问题,在开发数据集市时,应采用统一的数据仓库信息模型,可采用共享元数据中心库的方式,使企业主题域、通用维、度量、业务规则、数据的组织格式、数据源等在逻辑上统一,即事先制定一些必要的标准和规则,在设计数据集市时就遵守这些约定,以便日后可以方便地将数据集市集成到企业中心数据仓库中。
    ②随着数据集市的增多,用户可能会访问其他部门的数据集市进行交叉查询分析,而数据集市之间的连接必须依靠数据库中间件来完成,这些连接的透明性差,不易管理,所以执行多数据集市之间的交叉查询分析效果比较差。
    ③匆忙开发的独立型数据集市,其设计容易受操作型系统的影响,甚至匆忙开发的数据仓库也会受操作型系统的影响,其结构与OLTP系统类同,不能很好地反映用户面向主题分析的需求。因此开发数据集市应该和开发数据仓库一样,遵循相应的一些原则。
    (2)自顶向下方法构建非独立型数据集市构建(DM art/I)W体系的另一种模型如图2所示,就是先构建企业级DW,再将数据分发到各DMart中。这种模型的每DMart的构建比较简单,数据可统一管理,但开发周期较长。这种方式建立的数据集市,其数据来源于全局数据仓库,称为非独立数据集市。
    这种方式的优点如下:
    ①这是收集、建模和实现最终用户决策支持需求的严格而又普遍的方法,它将数据仓库的设计方法应用于数据集市的设计和实现中,技术上比较可靠;
    ②这种方法建立了一个面向全企业的数据仓库,可使用户对企业的业务、组织和发展有全面的了解;
    ③所有数据集市的数据均来自同一个中心数据仓库,所以数据格式是统一的。


    这种方法的缺点是:
    ①使用这种方法的开发周期长,开发费用高;
    ②功能调整不易,不能及时根据客户反馈的意见进行改进;
    ③由于初期效果不明显,如果处理不当,很容易使用户对新系统失去信心和耐心,从而导致系统的失败。
    (3)联合方法构建混合型数据集市
上面介绍的两种方法各有利弊,因此人们希望有一种折中解决的方案,既能控制成本,缩短投资回报时间,又能解决后期集成问题,从而提出了混合型数据集市的开发方案。这种数据仓库系统包含独立数据集市、中心数据仓库、非独立数据集市气混合型数据集市克服了自顶向下方法开发周期长、开发成本高,以及自底向上方法后期集成困难等问题,但是仍然存在数据重复存储、数据冗余度大的问题。


  3 DW/DMart体系结构的改进
    本文提出一种新的方法建立DW/DMart体系结构(如图4所示),它既不同于自顶向下方法和自底向上方法,也有别于传统意义的联合方法;在开发独立数据集市过程中采用和建立数据仓库相同的标准和规则,这样可使各数据集市的后期集成更加简单;而整个DW/DMart)W系统建好后,使用同一数据加载机制同时向各部门数据集市和企业中心数据仓库加载数据:将当前数据和轻度综合数据加载到数据集市,便于部门级领导针对各部门经营情况作出各部门的具体决策;将历史数据和共享数据加载到中心数据仓库,便于所有部门共享;并通过二次集成将各部门高度综合的数据加载到中心数据仓库,便于企业高层领导根据整个企业的总体经营情况快速地做出全局性的决策。这种结构既具有自底向上方法的优点,有利于系统用原型法进行开发,缩短开发周期;又具有自顶向下方法的优点,独立数据集市和数据仓库具有相同的数据格式和管理规范,有利于数据集市的集成和数据的管理;而且与联合方法建成的混合型体系结构不同,数据存储结构更合理,数据冗余度较小,且提供给各级决策者的数据更符合他们的决策需要。


    下面对该体系结构的设计思想进行具体说明。
    ①由于开发基于数据仓库的企业决策支持系统是一项复杂的系统工程,开发周期长,开发成本高;漫长的开发过程容易使用户丧失对系统的兴趣和耐心。为了降低开发难度、缩短开发周期、使系统尽快投人使用,使用户尽快从系统获利,本系统开发过程采用原型法,即先建立企业某部门(例如营销部)的数据集市(DMart)做为一个原型,再以同样的方法建立各部门的数据集市,最后将这些数据集市通过数据上传的方法来构造企业级的中心数据仓库。由于数据集市是针对部门级决策的,结构相对简单,规模比数据仓库小,只针对某一特定主题,所以开发周期短,见效快。
    ②对于细节数据和共享的数据并不存放在各部门的数据集市中,而是存放在企业的中心数据仓库的历史数据库和共享数据库中,对于超过一定年限的历史数据则导出到大容量的低速存储设备。各部门的数据集市中只存储和本部门有关的当前数据及轻度综合数据,并不长期保留历史数据,这样既方便各部门领导进行具体决策,又使各数据集市不需要太多的空间,使数据的存储结构更合理,管理和使用更方便。
    ③企业级决策者一般无暇过问各部门的具体事务和具体经营情况,他们只关心跟整个企业发展有关的重大问题和企业的整体经营情况,所以只需要将各部门的高度综合数据上传至企业的中心数据仓库即可,不需要将各部门的轻度综合数据都上传至企业的中心数据仓库。高度综合的数据更有利于企业高层领导更快地作出一些重大的决策。
    ④数据仓库和数据集市用相同的规范进行管理,数据在整个数据仓库系统中的格式是统一的,这样就解决了数据格式不一致、数据集市集成困难以及多个数据集市交叉查询困难等问题。 本文作者:潘宝娟 来源:万方数据
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的