第一章绪论
1.1 论文选题背景
(1)商业智能的产生
改革开发三十多年以来,我国的经济得到了迅猛的发展。企业规模不断扩大,经济的全球化日益明显。企业面临的竞争越发严峻,越来越多的企业开始认识到,若想要在商业的海洋中占有一席之地就一定要获得最新的信息,正确的决策。可究竟通过何种方式来得到最新的信息,获得最好的决策支持,是摆在所有企业面前的一个难题。商业智能就是在这样的环境下应企业的需求而产生的,它的产生解决了如下的问题:
①解决了数据爆炸的问题。我国的信息技术正在迅速的发展着,而信息的发展无疑为企业提供了很好的获取信息的渠道,经过十几年甚至几十年的企业所累积的信息量已经非常巨大,现有的ERP、CRM等企业内部的系统在源源不断地添加进新的数据,而这些企业历史数据的利用率非常低,只会增加企业的管理成本,并没有带来经济效益。商业智能解决方案能够很好的整合数据,使数据的利用效率大大提高。
②商业智能解决方案整合了企业内庞杂的系统,使其统一起来。企业已建立的业务系统都基于独立的平台,各自都有独立的体系结构,而且各个系统面向不同的业务目标,不利于数据的集中共享,更不利于数据的深入分析。商业智能解决方案整合了不一致的业务平台,建立了企业范围内统一的数据仓库,数据在全企业范围内达到一致。
③商业智能解决方案能够把海量的、杂乱无章的数据转化为知识。该方案既能够满足企业日常的报表需求也可以满足用户深层次的分析需求。从应用角度来讲它可以帮助优化生产工艺、改进产品质量、进行客户评价等等。当然,商业智能的应用和实施,与相关的计算机技术的成熟是密不可分的。硬件方面容量存储技术,并行处理技术;软件方面的数据库技术,数据仓库技术,人工智能技术,新的数据挖掘算法,神经网络技术等;都促进了商业智能的发展。
(2)商业智能的定义
商业智能(Business Intelligence,简称BI)的概念最早由Gartner Group于1996年提出,他将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成,以帮助企业决策为目的的技术及其应用。总体来讲,商业智能主要有以下四大功能:
①数据整理功能:把业务数据抽取到企业级数据仓库,抽取过程中进行数据加工,比如数据清洗和数据格式化,以提高数据的质量,增加数据的可用性。
②企业级数据存储功能:建立企业范围内统一的数据存储平台,可以很好的保持数据的一致性。可以建立基于数据仓库技术的应用系统,即面向特定领域的应用系统,如为企业领导定制的EIS(Executive Information System)。
③分析功能:快速方便的从多个角度分析问题并找出答案。能够通过预先处理的方式,针对不同的主题和模型,高效率的满足客户的分析需求。
④实时报表:满足企业灵活多变的报表需求。通过灵活易用的报表系统让业务人员自己驾驭数据,找出业务规律。
(3)ODS的提出
在今天的企业中,通常需要制定的决策包括三种:操作层决策、战术层决策和战略层决策。操作层决策可借助于面向应用的DB系统,战略层决策可借助于以DW为数据中心的商业智能系统,但是DB和DW都不能很好的满足战术层决策的要求。为此提出了操作数据存储的概念。它弥补了DB.DW两层体系结构的不足,从而形成了一种基于DB.ODS.DW的三层体系结构。它为用户提供一致的企业数据集成视图,满足数据处理的多层次要求即面向各级管理人员,从而更加有效地利用信息资源为企业提供决策分析服务。ODS作为一个中间层次,一方面,它包含企业全局一致的、细节的、当前或接近当前的数据,可以进行全局联机操作型处理;另一方面,它又是一种面向主题的、集成的数据环境,且数据量较小,适合于辅助企业完成日常决策的数据分析处理。
1.2 国内商业智能的发展概况
商业智能产品的应用是需要一定的基础的。实施商业智能的企业至少应该具备以下几个条件:用户的数据已达到一定的规模;用户面临激烈的市场竞争:用户在IT方面的资金能得到保障。满足以上几点的行业集中在重要的政府机构(如财务、税务、审计、工商、海关等)、零售业(连锁店、网上零售等)、大型现代化的制造业(如宝钢、上汽集团等)、金融(包括银行、证券、保险等)、电信业(如中国电信、中国网通、中国移动等)、能源业(电力)、运输等,这也是目前国内急需要数据仓库和商业智能技术来提升企业竞争力的主要行业。目前活跃在国内BI市场上的厂商大致可分为以下三类:
(1)国际BI厂商,如BO公司、Hyperion公司(已被Oracle公司收购)、NCR公司、mM公司、甲骨文公司、微软公司、SAS公司等。这些国际厂商的品牌与规模优势非常突出,是国内大部分BI厂商难以与之匹敌的。
(2)起步比较早的国内BI厂商,如菲奈特(成立于1995年10月,从1997年开始进入BI领域)、先进数通公司(成立于2000年lO月)、吉贝克公司(成立于2002年4月)等。这些国内BI厂商凭借本土化的优势以及对国内BI用户所需要的应用的独特见解,也在国内的BI市场上占有超过30%的市场份额。其中菲奈特更是国内BI厂商中无可争议的领军人物,该公司为银行、保险、税务、海关、烟草及制造业成功地实施了超过100个BI项目,并且是目前国内唯一拥有自主知产权的平台级BI产品的国内BI厂商,菲奈特公司在十年的发展中积累了丰富的行业经验及大量的B1人才(超过30人的BI行业顾问及超过200人的专业实施团队)。无论其跨行业、跨平台的专业实施能力,还是成功案例的数量,都是国内其它BI厂商难以望其项背的,被誉为“国内BI厂商领先代表”,扛起国产化大旗。
(3)非专业BI厂商,主要有以下几类:一、从事某些行业核心业务系统建设的公司;二、从事系统集成的公司;三、从事专业财务系统及个别ERP厂商。上述几类公司为近年来国内BI市场的高速发展及未来巨大的市场空间所吸引,也纷纷转型或开始在BI方面有所投入,期望在未来国内BI巨大的市场上分得一杯羹。而对BI缺乏正确的理解以及专业B1人才的匮乏,决定了这类公司还要有很长的一段路要走。
商业智能技术进入中国市场十年来,经过了漫长的认知期,走过了艰难的市场培育期,到今天已经迎来了爆发式的市场高速增长期。目前国内的高端BI市场已打破国际厂商一统天下的局面。国内的高端BI厂商凭借本土化的优势,经过多年的努力,目前也已经在国内某些行业的高端市场上占有了一席之地。国际厂商在BI平台领域仍然占有优势,而对于BI应用领域和中低端BI市场(如中小企业和规模较小的金融机构),国内BI厂商的优势则更为明显。国际BI厂商通过总结多年来在国内市场发展的经验,也对自己的不足有了一定的认识而开始转向寻求与国内BI厂商的领军者进行合作。国内的BI厂商也可以通过与国际BI厂商的合作来完善自身的不足。在目前的国内市场,专业的B1人才的不足,无疑是制约国内BI市场发展的重要因素之一。专业B1人才的培育和储备对国际BI厂商和国内BI厂商都尤为重要。在国内未来的BI市场中,谁拥有更多懂得中国用户的实际需要,并掌握先进的BI技术的人才,谁就必将成为未来中国BI市场的霸主。
1.3 商业智能在航空公司的应用
随着中国加入了WTO,我国的各大航空公司积极参与国际市场的竞争中,在这种竞争氛围中,信息成为最重要的武器,为了保持竞争的优势,企业的管理层和业务人员必须随时了解企业的业务运营情况,根据市场情况随时调整业务策略,而这些必须建立在足够的信息基础之上。我国的各大航空公司经过几十年的发展,累积了大量的历史数据,各个业务系统分散、数据庞杂格式不统一,利用传统的信息获取手段远远不能满足信息的需求。想要随时获取所需的信息,几乎是不可能的,因此必须要实行企业信息化,满足企业对于信息的需要。随着各大航空公司信息化的不断深入和推广,企业的运营效率得到显著提高。但是,如何充分利用企业中大量的数据,全面支持企业各个层面的经营决策,是各公司迫切需要解决的问题。以ODS为中心的商业智能平台在航空公司的应用能有效地解决企业信息化在决策支持和经营方面的问题,通过对原始数据进行科学的处理,运用一定的计算模型和工具对数据进行科学的统计分析,从而起到对管理和决策的支持作用,进而提升企业的综合竞争力。
总结实践经验,商业智能平台在我国航空公司的应用大致可以分为:
(1)定制分析报表。用于公司和部门层面日常报表的需要;
(2)基于数据仓库技术的应用系统。面向特定领域的应用系统,如为企业领导定制的EIS(Exceutive Information System);
(3)OLAP(On Line Analytical Processing)分析。从多个维度进行汇总分析:
(4)个性化的统计分析。用户基于数据仓库的数据,运用一些分析工具,结合自己的业务知识进行的统计分析;
(5)数据挖掘(Data Mining)。从大量数据中找出规律和规则。纵观航空公司商业智能应用的现状,商业智能平台弥补了在线事务处理系统的不足,在一定程度上帮助企业实现了从数据到信息,再到知识,并上升到智慧,最后再指导实践行动的一个循环。
1.4 论文的研究内容和章节安排
当前,商业智能是一项新兴的技术,要目的是为企业决策人员提出决策依据,企业在市场竞争中取得先机。
(1)本文研究的主要内容:
已经成为信息化应用的新热点。它的主帮助他们做出明智的企业战略决策,使本文首先详细介绍了商业智能的关键技术及ODS技术的相关内容,根据ODS的基本特性和作用,将ODS技术引入商业智能系统中,提出一种以ODS和DW为数据中心的商业智能信息处理框架。
在ODS的构建方面,根据维度建模的方法为ODS设计数据模型,分两步骤实现ODS的创建。在DB.ODS.DW的体系结构中,为了和DB中的数据保持一致,ODS需要不断的从DB中抽取数据并且和ODS原有的数据进行集成;同时,作为DW的主要数据来源,ODS必须能够为DW提供准确一致的、及时的数据,这就使得ODS层的数据抽取和装载变得十分重要。因此本文主要研究了在大数据量的情况下,如何对ODS中的增量数据进行更新。特别针对ODS中的实视图,对已经存在DROV(Differential Re.Evaluation OfViews)实视图更新算法进行改进。同时,将该算法和ODS中的记录系统定义相结合提出一种新的增量数据更新机制,并对该机制进行算法描述。
将论文的研究工作应用于某航空公司的BI系统中。航空公司每天的业务量巨大,积累了大量的历史数据,引入商业智能方案势在必行。为了分担数据仓库的分析和查询任务,将DB.ODS.DW的数据仓库体系结构引入其中,对ODS系统进行设计,并给出了部分应用结果。
2 数据仓库技术
(1)数据仓库的定义
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon给予如下描述:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库:其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
(2)数据仓库的特点
W.H.Inmon提出的数据仓库的概念很好的反映出了数据仓库的特点,即数据仓库是面向主题的、集成的、稳定的和非易失的。我们将这些特点分别详细介绍如下:
①数据仓库是面向主题的。操作型数据库的数据组织面向事务处理任务‘,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
②数据仓库是集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除数据源中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
③数据仓库是相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作。定期的加载、刷新。
④数据仓库是反映历史变化的。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
(3)传统数据库与数据仓库的差异
传统的数据库和数据仓库存在很大的不同。数据仓库的数据源可以来自于不同的DBMS的数据库(内部数据源),也可以来自于不同格式的文件中(外部数据源)。这些数据源可以看作数据仓库中输送数据的管道。通过数据抽取、清洗、装载将数据添加到数据仓库中。传统的数据库主要针对事务性操作,数据结构相对复杂,实时更新数据,面向业务操作人员。传统数据库和数据仓库的差异如表2.1所示:
(4)数据仓库的设计
数据仓库是一个解决方案,并不是一个可以买到的产品。不同的企业会有不同的数据仓库,企业人员往往不懂如何利用数据仓库,不能发挥其决策作用,而数据仓库设计人员又不懂公司业务,不知道设计哪些主题,从数据源中抽取哪些数据。双方必须互相沟通,共同协商开发数据仓库。
数据仓库设计的流程
①启动工程:建立开发数据仓库工程的目标及制定工程计划。计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度。
②建立技术环境:选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(关于可用性、装载、维护及查询性能)等。
③确定主题进行数据仓库结构设计:因为数据仓库是面向决策支持的,它具有数据量大但更新不很频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。
④数据仓库的物理库设计:基于用户的需求,着重于某个主题,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。
⑤数据抽取、精炼、分布:根据数据仓库的设计,实现从数据源抽取数据、清理数据、综合数据和装载数据。
⑥对数据仓库的OLAP访问:建立数据仓库的目的是要为决策支持服务。所以需要各种能对数据仓库进行访问分析的工具集,包括优化查询工具、统计分析工具、C/S工具及数据挖掘工具,通过分析工具实现决策支持需要。
⑦数据仓库的管理:数据仓库必须像其他系统一样进行管理,使数据仓库正常运行。
2.2 OLAP技术
联机分析处理(OLAP)的概念最早是由关系数据库之父E.ECodd于1993年提出的。当时,Codd认为联机事务处理(Ou限)己经不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出OLAP的概念。联机分析处理(On LineAnalytical Processing简称OLAP)是最终用户对企业数据仓库中的数据直接获取、能动的进行信息分析的过程。
(1)OLAP的基本概念
根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多维信息的快速分析。根据这个定义,描述了核心的五大特征如下:
①快速性。用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。如果终端用户在30秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速度并不容易,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。
②可分析性。OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在OLAP平台上进行数据分析,也可以连接到其他外部上,如时问序列分析工具、成本分配工具、意外报警、数据开采等。0LAP应在保证系统安全的基础上,提供多用户共享数据与信息的机制。0LAP系统应规定不同用户的使用权限,对元数据级别进行安仝设置.从而更好地加以控制。例如,当多个用户同时向OLAP服务器写数据时,系统应能在适当的粒度级别上加更新锁。
④多维性。多维性是OLAP的关键属性。系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。事实上。多维分析是分析企业数据最有效的方法,是0LAP的灵魂。
⑤信息性。不论数据量有多大,也不管数据存储在何处。,0LAP系统应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,包括数据的可复制性、可利用的磁盘OLAP产品的性能及与数据仓库的结合度等。
OLAP按存储方式和特点士要分为:MOLAP、ROLAP、混合型ROLAP。
①MOLAP(Multi Dimenhonal OLAP):是将按照主题定义的OLAP分析所用到的数据,生成并存储为多维数据库的形式,形成“超立方体”的结构。生成的多维立方体已经计算生成了一些汇总值,当用户发出分析请求时,从多维立方体中取得数据,而不是从数据仓库中取数据。这种方式对用户的相应速度较快,但由于多维立方体通常是稀疏的。存储的利用率很低,造成存储空间的浪费。因此多维立方体中,不可能存储大量的细节数据,综合数据较多。分析的粒度比较粗。同时,多维OLAP的灵活性比较差,如果分析人员需要在一个多维数据库中没有定义的维度时,开发人员将不得不在多维数据库中为分析人员定义他所需的维度,并对原先的预处理程度进行改动。
②ROLAP(Relational OLAP):是以关系型结构存储和表示多维数据,而不生成多维立方体,只是存储数据模型和数据仓库数据之间的映射关系,真正的数据物理存储在数据仓库中。在进行多维分析时,OLAP服务器根据定义的模型和映射
第二章 商业智能关键技术
从数据仓库中取得数据,进行实时分析。由于数据仓库中保存了大量的细节数据和描述性的数据.因而数据集比较大.且响应用户的分析请求是要进行大量的关系表之间的连接操作,这就增加了对用户的响应时间,但数据只存储一次,相对于MOLAP,节省了空间,并且分析可以得到较细节的数据,即分析的粒度可以比较细。
MOLAP与ROLAP是目前使用最多的两种OLAP结构.这两种结构能完成相同的分析功能。MOLAP采用专用的多维数据库来支持多维分析操作,而ROLAP则不需要用专有的多维数据库来支持多维分析操作,它的数据库层采用关系型数据库。由于这两种结构在各自的数据库层采用的数据库系统不同,从而导致各自有不同的特点。
准则一:维度能够动态更新。一个真正的HOLAP不但可以提供对数据的实时存取,还可以根据不断变化的结构对维数进行更新。
准则二:可根据RDBMS的元数据产生多维视图。一个真正的HOLAP可利用RDBMS的元数据来构建多维模型并可以利用元数据方便快捷地更改多维视图,减少开发和维护人员的工作量。
准则三:可以快速存取各种级别的汇总数据。
准则四: 可适应大数据量的数据分析。
准则五: 可以方便地对计算和汇总算法进行维护和修改。
如今被认为实现HOLAP比较理想的方法就是利用一个多维数据库存储高级别的综合数据同时用关系型数据库管理系统(RDBMS)存储细节数据。它的具体法是用星型结构建立起以关系数据库表示和存取的多维数据库,作为OLAP的主要数据源,这部分数据主要为综合数据;细节数据仍以关系数据库为基础,充分利用RDBMS的各种技术,联合其他的分析报表工具,实现OLAP的功能。这种方法结合了MOLAP和ROLAP的优点。在这种方法中,客户端用户提交一个分请求,由系统透明地从DBMS中提取经过综合的数据或从RDBMS中提取细节数据。
(3)OLAP和OU限的区别
OLAP是以数据库或数据仓库为基础的,其最终来源与OLTP一样均来自底层的数据库系统,但二者面对的用户不同,OLTP面对的是操作人员和低层管理人员,OLAP面对的是决策人员和高层管理人员,因而数据的特点与处理也明显不同。OLTP是对基本数据的查询和增、删、改的操作处理,它以数据库为基础,而OLAP更适合以数据仓库为基础的数据分析处理。OLAP其历史的、导出的及综合提炼的数据来自OLTP所依赖的底层数据库。OLAP数据较之OLTP数据要多一步数据多维化或预综合处理的操作,例如,对一些统计数据,首先进行预综合处理,建立不同粒度的统计数据,从而满足快速统计分析和查询的要求。除了数据及处理上的不同之外,OLAP的前端分析工具的界面风格及数据访问方式也同OLTP有别,OLAP多采用便于非数据处理专业人员理解的方式(如多维报表、统计图形),查询提出及数据输出直观灵活,用户可以方便地进行逐层细化等操作。而OLTP多为操作人员经常用到的固定报表,查询及数据显示也比较固定、规范。OLAP和OLTP的区别如表2.3所示:
(1)数据挖掘的定义
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段导致了“数据爆炸但知识贫乏’’的现象。于是数据挖掘便应运而生。目前,对数据挖掘技术一种比较公认的定义是Frawley U,Piatestsky-Shapiro G等人提出的:数据挖掘,即数据库中的知识发现(KDD),是一个在数据中提取出有效的、新颖的、有潜在实用价值和易于理解知识模式的高级过程。其中:数据:是用来描述事物的信息集合,是进一步发现知识的原材料。。i新颖:经过数据挖掘提取出的模式必须是新颖的。模式是否新颖可以通过两个途径来衡量:其一是通过对比当前得到的数据和以前的数据或期望得到的数据之间的比较来判断该模式的新颖程度;其二是通过对比发现的模式与已有的模式的关系来判断。
潜在可用:即提取出的模式应该是有实际意义的。
易于理解:数据挖掘的一个目标就是将数据库中隐含的模式以容易被人理解的形式表现出来,从而帮助人们更好地了解数据库中所包含的信息。数据挖掘不同于以往知识获取技术,它的特点之一是发现的知识是人们(至少是领域专家)易于理解的.因此数据挖掘也是一个人机交互、螺旋上升的过程。
模式:对于集合F中的数据,可以用语言来描述其中数据的特性。表达式所描述的数据是集合F的一个子集FE。只有当表达式E比列举所有FE中元素的描述方法更为简单时,才可称之为模式。高级过程:数据挖掘是对数据进行更深层处理的过程,而不是仅仅对数据进或在不同的层次上的)平均、最小、最大值总、和百分比等等挖掘结果。用交叉表特征规则统计的曲线图表等表示。
分类规则挖掘:它做的是已知训练数据的特征和分类结果,为每一个类找到一个合理的描述或模型,然后再用这些分类的描述或模型来对未知的新的数据进行分类。
①序列模式挖掘:序列模式挖掘与关联规则挖掘相仿,它把数据之间的关联性与时间联系起来。但前者关注的是数据在发生时间上的先后关系,即因果关系。为了发现序列模式不仅需要知道事件是否发生而且需要确定事件发生的时间。
②聚类规则挖掘:它又称为无指导的分类(Unsupervised Classification),其宗旨在于实事求是地(而不是按照人的主观认识)按被处理对象的特征分类。有相同特征的对象被归为一类,它与分类规则挖掘的区别在于分类是基于训练数据的而聚类直接对数据进行处理。
③趋势分析:趋势分析又叫时间序列分析,它是从相当长的时间内的发展趋势中发现规律和趋势。
④偏差分析:偏差分析又叫比较分析,它将找出一系列判别式的规则以区别用户设定的两个不同类。根据应用分类:数据挖掘系统可以根据其应用分类。例如可能有些数据挖掘系统特别适合金融、电信、DNA、股票市场、email等等不同的应用。通常需要集成对于该应用特别有效的方法,因此普通的全能的数据挖掘系统可能并不适合特定领域的挖掘任务。
(2)数据挖掘的过程
数据挖掘过程一般由3个主要的阶段组成:数据准备,挖掘操作,结果表达和解释。
数据准备阶段:这个阶段又可进一步分成3个子步骤:数据集成,数据选择,数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性处理,数据中的遗漏和清洗脏数据等;数据选择的目的是辨别出需要分析的数据集合,缩小处理范围提高数据挖掘的质量;预处理是为了克服目前数据挖掘工具的局限性。
数据挖掘阶段的挖掘操作包括的要点有:
要点一:要先决定如何产生假设。是让数据挖掘系统为用户产生假设,还是用户自己对数据库中可能包含的知识提出假设。前一种称为发现型(DiscoveryDriven)的数据挖掘,后一种称为验证型(Verification Driven)的数据挖掘。
要点二:选择合适的工具。
要点三:挖掘知识的操作。
要点四:证实发现的知识。
结果表述和解释阶段:根据最终用户的决策目的,对提取的信息进行分析把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来(例如采用信息可视化方法),还要对信息进行过滤处理,如果不能令决策者满意需要重复以上数据挖掘的过程。
2.4 本章小结
数据仓库技术,OLAP技术,数据挖掘技术是商业智能三个主要的组成部分。本章分别对三个关键技术进行了介绍和分析。
本文作者:盖欧 来源:E-Works