首页  ·  知识 ·  大数据
基于Web的数据仓库的探讨
马锐 夏雨    实践应用  编辑:dezai   图片来源:网络
数据仓库是近几年来出现的、发展迅速的一种技术。数据仓库把一个单位的历史数据收集到一个中央仓库中以便于处理,它是支持决策过程的、面向主题的、随时间而变的
数据仓库技术的出现为解决企业信息系统中存在的“海量数据”和“信息贫乏”的不利境况提供了一种较好的解决方案。然而随着信息技术的发展,对数据仓库的应用提出了更高的要求。传统的两层C/S结构已经不能适应日益增长的跨地域、跨平台的信息分析的需要,暴露出诸多问题,具体表现在以下几个方面:

1)客户服务器体系结构的建立和维护成本很高,而且系统的协调性、兼容性不好;

2)单一用户界面不足以支持众多用户的使用;

3) 随着Internet/Intranet的发展, 越来越多的人希望借助于Internet/Ineranet访问数据仓库,获得必要的信息支持,而传统的C/S结构无法满足这一需求;

4)对客户端的要求高。客户端需要预装许多支持软件,使得系统较依赖于客户端平台。因此系统的可移植性、伸缩性不好Internet的广泛应用使传统的商务模式发生了巨大转变,基于Web的数据仓库技术改变了最终用户对数据仓库的使用模式。人们可以不再局限于通过局域网(LAN)使用数据仓库,而是可以通过Internet/Intranet远程访问数据仓库,所得的分析结果也可以借助Web服务器迅速发布。

1 Web技术特点

Web技术是目前Internet上发展最快也是最重要的信息发布与检索手段,它提供了一种全球范围的信息共享方式。通过Web方式可以充分地共享和应用现有的各类信息,Web技术已成为信息技术发展的一种趋势。交互式动态页面的实现需要以大量数据资源为基础,于是出现了Web数据库技术。Web数据库技术的主要内容包括超文本传输协议(HTTP),超文本标记语言(HTML),以及Web与数据库的接口技术:通用网关接口CGI方式,服务器API方式等。将Web技术与数据库技术结合,开发动态的Web应用程序,实现了传统的数据库应用程序在Internet领域共享信息的要求,为Internet开辟了广泛的应用前景。

2 数据仓库技术特点

数据仓库本质上是一个建立在数据库系统之上的数据管理系统,该系统中的数据来自若干分布的、异质的数据源,数据仓库除了具有数据库系统的特点之外,还具有如下特点:

1)面向主题且集成的。数据仓库将相关的问题集中于某一领域进行分析,将与主题有关的因素利用多维表表现出来,而主题是在一个较高层次对数据集成的标准,每一个主题基本对应一个宏观的分析领域。

2)数据应当是良构的、一致的。由于数据仓库是将不同异质的、分散的数据集成在一个系统平台上,所以系统一开始就必须考虑将不同的数据进行一致化和标准化的问题。而为了满足决策者的需求,对这些数据进行结构上的重组也是必要的。

3)时间性。时间性是数据仓库的一个显著特性。数据仓库中的数据是随时间变化的,这些数据都是一系列某一时刻所生成数据的快照,每个数据单元都与时间有关。数据仓库一般都包括对长时间历史数据的存储,存储时间一般为5—10年,用于进行长期的趋势分析。

3 基于Web的数据仓库系统结构及其实现

基于Web的数据仓库系统由表示层、应用层和数据层所组成。这种结构更易于构造基于三层逻辑结构的应用系统。它允许同一层的不同应用交互使用,并且它们可以互相支持相邻层的相同接口。每一层都对其上一层提供服务,对下一层则作为一个客户端应用而存在。

1)表示层。即浏览器层。在Web页面中嵌入用户查询信息所需的表单(FORM)。一方面,用户填写表单后,通过HTTP协议传送至Web服务器。另一方面,用户接受从应用层根据用户需求组成相应形式后传来的数据。

2)应用层。应用层包括传统意义上的Web服务器和位于Web服务器与数据仓库服务器之间的应用服务器。应用服务器一般存放各种应用程序软件包。主要有:EIS查询工具,OLAP工具,DM工具,以及用于构建数据仓库的数据抽取、转换和集成的工具。

3)数据层。即后台数据仓库(DW)。它是一个信息物理存储层,用于存储来源于数据库或其他信息源(如日志文件)的数据。其主要的数据来源于www站点的半结构化数据。这些数据根据各自的主题区域被分布到不同的物理存储空间。数据层处理来自应用层的SQL语句,完成相应的信息查询,并把查询结果反馈给应用层。

表示层,应用层和数据层三者相互协作,每一层既作为上一层的服务端,同时又作为下一层的客户端,共同完成分布在不同地域,不同平台的用户对异地数据仓库的信息访问。

4 结论

基于Web的数据仓库系统较好地解决了C/S结构对数据仓库使用的局限性,扩展了数据仓库的应用范围。使终端用户通过浏览器可以高效、方便地访问数据仓库。信息访问者不必安装另外的客户软件(仅需Web浏览器),具有良好的跨平台能力;为在www环境下信息的收集、存储以及数据仓库的访问提供了一条便捷的途径,可以极大地提高人们使用和查询数据仓库的效率,有助于信息资源的更好利用;具有统一的接口,同一类的页面,数据处理相对独立和透明。

本文作者:马锐 夏雨 来源:网络
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的