首页  ·  知识 ·  大数据
数据仓库和数据挖掘技术浅析
乔良才   http://articles.e-works.net.cn/bi/article79397.htm  实践应用  编辑:德仔   图片来源:网络
1 数据仓库概述 1.1 数据仓库的概念

1 数据仓库概述

    1.1 数据仓库的概念及特性

    数据仓库概念的创始人W.H.Inmon在《建立数据仓库》一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。”虽然还没有形成统一的定义,但以上观点都或多或少地指出了数据仓库有以下几个特点:

    1.1.1 面向主题:典型的主题领域(客户、产品、交易、帐目);

    1.1.2 集成的:数据提取、净化、转换、装载

    1.1.3 非易失的:数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新;

    1.1.4 随时间的变化性:数据仓库中的时间期限要远远长于操作型系统中的时间期限(5-10年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。

    1.2 数据仓库的体系结构

    一个数据仓库的基本体系结构中应有几个基本组成部分:

    1.2.1 数据源,指为数据仓库提供最底层数据的运作数据库系统及外部数据。

    1.2.2 监视器,负责感知数据源发生的变化,并按数据仓库的需求提取数据。

    1.2.3 集成器,将从运作数据库中提取的数据经过转换、计算、综合等操作,并集成到数据仓库中。

    1.2.4 数据仓库,存贮已经按企业级视图转换的数据,供分析处理用。

    1.2.5 客户应用,供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结果的工具。

    1.3 数据仓库的开发过程

    数据仓库的开发过成由以下几个步骤组成:

    1.3.1 建立或获得企业的数据模型;

    1.3.2 定义记录系统;

    1.3.3 设计数据仓库并按主题领域进行组织;

    1.3.4 设计和建立操作型环境中的记录系统和数据仓库之间的接口,这些接口能保证数据仓库的载入工作能有序的进行;

    1.3.5 开始载入第一个主题领域,进入载入和反馈过程,数据仓库中的数据在此过程中也在不断地改变。在接口中需完成的工作有:数据抽取、对来自操作型、面向应用型环境的数据的集成、数据时基的变更、数据压缩、对现存系统环境的有效扫描。

    1.4 数据仓库的典型应用

    数据仓库从出现开始就受到了重视,在很多领域都可以应用,如在税务领域可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特档进行描述,找出普遍规律,谋求因势利导的税务征稽策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。
2 数据挖掘概述

 

    数据挖掘(DM,Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程。数据挖掘技术是面向应用的,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理发掘数据间的相互关系,完成从业务数据到决策信息的转换。

    2.1 数据挖掘的功能

    2.1.1 聚类。将数据库中的记录划分为一系列有意义的子集,包括传统的模式识别方法和分类学。聚类是概念描述和偏差分析的先决条件,它增强了人们对客观现实的认识。

    2.1.2 概念描述。找到描述数据的可理解模式并对这类数据的有关特征和内涵进行概括和描述。概念描述分为特征性描述和区别性描述,前者偏重描述数据间的共同特征,后者则是描述数据之间的区别。

    2.1.3 关联分析。关联就是数据库中两个或多个数据之间存在的某种规律性,它是一类隐含的、具有重要价值、并可发现的知识,关联可分为简单关联、时序关联、因果关联。

    2.1.4 趋势预测。数据挖掘自动在数据库中寻找预测性信几急运用相关算法和技术,分析和认识事物演变的规律性,从已知信息推出未知信息,从现有信急导出未来信息,从而刘事物的未来发展作出科学、合理的预测。

    2.2 数振挖掘语言的分类

    对于数据挖掘语言,根据功能和侧重点不同,我们将其分为三种类型:数据挖掘查询语言;数据挖掘建模语言;通用数据挖掘语言。

    第一阶段的数据挖掘语言一般属于查询语言;PMML属于建模语言;OLE属于通用数据挖掘语言。

    数据挖掘查询语言DMQL由数据挖掘原语组成,数据挖掘原语用来定义一个数据挖掘任务。用户使用数据挖掘原语与数据挖掘系统通信,使得知识发现更有效。

    PMML主要目的是允许应用程序和联机分析处理(OLAP)工具能从数据挖掘系统获得模型,而不用独自开发数据挖掘模块。

    通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互和特殊的挖掘。

    2.3 数据挖掘的技术方法

    2.3.1 决策树(Decision Tree)。其核心是某种归纳算法,通常是先利用训练集生成一个测试函数,根据不同取值建立分支,并在每个分支子集中重复建立下层结点和分支这样便生成一个决策械然后使之转化为规则,利用这些规则可以对新事例进行分类。

    2.3.2 神经网络。神经网络是建立在可以自学习的数学模型(以MP模型和Hebb学习规则为主)基础之上的,在结构上模仿生物神经网络,是一类非线性的、通过训练达到学习目的预测模型。

    2.3.3 规则归纳。这是数据挖掘领域中最常用的格式油一连串的“如果……就”这样的逻辑规则对数据进行细分,产生一组非体系结构的条件集,然后将该条件集用于预测新数据各项目的值。

    2.4 数据挖掘的工作流程

    数据挖掘的工作流程主要由二个阶段组成:首先进行数据准备,这个阶段又可细分为数据集成、数据选择、数据预处理三个步骤。数据集成是对多文件或多数据库运行环境中的数据实行合并处理,解决语义二义性问题。数据选择和预分析阶段,包括根据一定的标准对数据进行选择、删除、充实、分类等,进一步缩小数据范围,提高数据挖掘的质量。

    然后即可进行数据挖掘,选择合适的工具,运用相应的算法,在数据中发现模式和规律,证实发现的知识。最后是结果分析和评价阶段,将发现的模式解释成为可以用于决策的信息。当然,以上的流程并非单向的,若结果不能令决策者满意,可以递归地执行上述过程。

3 数据仓库和数据挖掘的OLAP

    数据仓库是管理决策分析的基础,要有效地利用数据仓库的信良资源,必须要有强大的工具对数据仓库中的信息进行分析决策。在线分析处理或联机分析处理就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并以直观的、容易理解的形式将查询结构提供给各类决策人员,使他们能够迅速、准确地掌握企业的运营情况,了解市场的需求。

    OLAP技术主要有两个特点:一是在线性,表现为对用户请求的快速响应和交互式操作,它的实现是由客户机/服务器体系结构完成的;二是多维分析,这也是OLAP技术的核心所在。

4 结 论

    通过的介绍,我们可以认识到数据仓库和传统数据库系统有着本质的不同,必须采用不同的研究方法。作为一个新兴的研究领域,数据仓库的应用发展很快,但其建设及技术具有很大的复杂性,仍有许多领域需要深如研究。
 

本文作者:乔良才 来源: http://articles.e-works.net.cn/bi/article79397.htm
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读