首页  ·  知识 ·  大数据
数据仓库在企业中的应用方法研究
周庆 王倩  万方数据  实践应用  编辑:dezai  图片来源:网络
0 前 言 在当今的软件设计中,数据库技术得到了迅速的发展和广泛的应用。随着商业竞争越来越激烈,商业经理们都渴
0 前 言

    在当今的软件设计中,数据库技术得到了迅速的发展和广泛的应用。随着商业竞争越来越激烈,商业经理们都渴望得到更多的信息来提高竞争力,大多数企业并不缺少数据,而是受阻于过量的冗余数据和数据不一致,而且它们变得越来越难于访问、管理和用于决策支持。这些企业通常都有海量的数据,但是信息技术资源和系统不能有效地将所有这些数据转化成有用的战略信息。这样,信息中心面临着不断增长的决策支持的需求,但是,开发应用变得越来越复杂和耗费人力,决策者只好凭自己的直觉而不是基于数据来做出决策,于是各种数据分析技术在人们的迫切需要下而产生,进而被广泛采用。

1 数据仓库的基本概念

    数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。数据仓库是一种语义上一致的数据存储,充当决策支持数据模型的物理实现,并存放企业战略决策所需的信息,它能够为数据分析提供高质量的数据源,更好地支持管理决策。数据仓库存储和管理不同粒度和分割的大量数据,数据量常以10 GB甚至100 GB计,为了便于进行决策支持,在数据仓库中应存在必要的冗余,以及完善的索引结构。数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,它更偏向于工程,具有很强的工程性。

    (1)数据仓库提供了标准的报表和图表功能,其中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关于整个企业集成信息的报表和图表。

    (2)数据仓库支持多维分析,多维分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。

    (3)数据仓库是数据挖掘技术的关键基础,数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况做出预测。

2 数据仓库的体系结构

    体系结构是指这些组成部分的合理安排。数据仓库由软件和硬件组成,为了满足组织的需要、必须用一个特定的方法将这些部分安排好以获得最大的效益。数据仓库有三个主要的区域:数据获取、数据存储、信息传递。图1显示了一个数据仓库的基本组成部分以及它的体系结构


图1 数据库的基本组成及体系结构


3 数据仓库在连锁店中的应用

    对于一个连锁店而言,每天进销存的数量比较大。在每一个分店经营的过程中,都会产生大量的数据,包括销售、库存、价格等,这些数据传递到总连锁店的数据仓库,通过分析这些大量的销售数据,将其转化成有用的战略信息,从而得山制定战略的决策。数据仓库的体系结构图如图2所示。


图2 数据仓库的体系结构


    在上述连锁店的体系结构中,各个分店的销售数据记录包括一些外部数据的记录依次经过数据抽取、数据转换、数据载入传输到连锁总店的数据仓库中,然后根据对不同数据源的转换、装载形成的一个新的数据库,用装载工具为装载表格生成主键,然后进行联机分析处理,基丁连锁店数据仓库提供多维报表分析功能、进行数据挖掘。其中利用元数据记录数据的结构和数据仓库的任何变化,通过元数据使得不同的过程相互通信。

    源数据:是数据仓库系统的基础,是整个系统的数据源泉,通常包括企业内部信息和外部信息。具体到这个连锁店中,连锁总店的源数据来白于各个分店的销售记录的数据以及一些外部数据。

    连锁总店数据仓库:是整个连锁店销售系统的总的数据存储库,同时也是整个数据库的核心部分,支持海最数据和快速检索。

    元数据:元数据是描述数据仓库内数据的结构和建立方法的数据,记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。

    OLAP:联机分析处理,包括两种类型:多维联机分析处理和关系型联机分析处理。在这个连锁店的数据仓库的模型中我们采用多维联机分析处理,用多维方式对数据进行分析查询。
4 数据分析

    数据分析模块包括OLAP分析和数据挖掘分析两部分。在模型的实现上,这两个部分既可以单独实现,也可以集成实现。经过对原有业务处理系统进行分析后,首先确定各个主题域,在WarehouseBuilder中建立目标数据仓库逻辑模型,定义相应的维表(包括维中概念层次的定义)、事实表、物化视图、视图等。然后指定数据仓库的数据源,在这里就是原有业务系统中一些数据表,并设置好与它的连接。之后,确定从源数据表到数据仓库相应表中相应宁段的映射关系,包括数据类型的转换、缺值的处理、数据过滤等Oracle预定义的映射和用户自定义的映射方法。当数据仓库的逻辑模型建好后,对目标数据仓库的物理存储进行设置,如指定表空间、生成方式等。最后,WarehouseBuilder将自动生成建立维表和事实表的DDL脚本,用户可选择运行该脚本而在目标数据库Oracle8i中生成数据仓库的表。用户可以通过OracleOEM把数据源中的数据装载到已建立好的数据仓库的表中。

    OLAP分析的基础是多维立方体,而多维数据库中预先存储了用户可能所需要的逻辑“立方体”,OLAP工具根据用户提出的分析任务在特定的数据方立体上做下钻、上卷、切片等操作,并将分析结果通过多种形式,如直方图、饼图等返同给用户。OLAP分析所完成的是验证型任务,即用户提出假设,并指明分析的任务,如涉及的维、粒度等,分析完成后,由用户来判断所提出的假设是否正确。数据仓库的构建是一个不断循环的过程,基于用户的需求,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。事实表含有主键,它可能含有的属性会有日期(Date),商品(ID),销售数量(Qualltity)等等。而维表则包括日期维,商品维,顾客维等等。维数据仓库设计的星型模式如图3所示。


图3 维数据仓库设计的星型模式


    数据挖掘可以直接在数据仓库上进行,因为数据仓库已经能够提供丰富的、经过预处理的高质量数据了。然而探测式的数据分析更能有效的支持数据挖掘:借助OLAP分析,用户使用交互的工作方式,选择数据,首先在不同的粒度上进行分析,研究每个分析结果,确定数据挖掘任务,如任务相关的数据集、所要挖掘的知识类型、所要使用的挖掘方法、兴趣度度量、概念分层等,最后进行数据挖掘,在数据挖掘的过程中,用户还可以继续对相关的数据“立方体”及挖掘的中问结果集进行上卷、下钻、切片等OLAP分析、以增强数据挖掘的能力和灵活性。所以为了与OLAP分析模型能够更好的集成,系统的数据挖掘也基于多维数据库之上。

5 结 论

    通过一个数据仓库的设计模型阐述了数据仓库在企业中的应用,介绍了一个简单通用的数据分析系统的模型,和个实际数据分析系统的初步实现。数据仓库在商业上的前景十分广阔,数据模型、数据库技术、OLAP技术、数据挖掘技术和决策支持技术都有很高的提高空间。一个企业需要多种类型的决策支持系统来提供决策信息,制定战略决策需要的信息不同千从操作型系统得到的信息。我们需要一种新的系统环境来提供战略信息,以分析、了解发展趋势和监控工作情况。数据仓库正是在汇总这些信息的基础上,进行查询分析、多维数据分析、数据挖掘、决策支持等。

本文作者:周庆 王倩 来源:万方数据
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的