首页  ·  知识 ·  大数据
基于数据仓库的数据挖掘及联机分析技术
张晓明 刘萍 王鹏  万方数据  实践应用  编辑:dezai  图片来源:网络
1 前言 数据库中的知识发现(KDD:K nowledgeD iscoveryi nD atabase)一词首次出现在1989年8月举行的第11届国际联
 1 前言
    数据库中的知识发现(KDD:K nowledgeD iscoveryi nD atabase)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。从1989年至今,KDD的定义随着人们研究的不断深入也在不断地完善,目前比较公认的定义是Fayyad等给出的KDD是从数据集中识别出有效的、新颖的、潜在的、有用的以及最终可理解模式的高级处理过程川KDD的过程一般包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。其中,数据挖掘(DM:Data Mining)是KDD中的个很重要的步骤,但在通常的应用中,并不区分二者的概念
    数据挖掘的任务是从数据集中发现模式,模式可以有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。在实际应用中,往往根据模式的实际作用细分为以下几种:分类,聚类,回归,序列,时间序列等数据控掘的所处理的数据类型也很丰富,包括文本数据,关系数据库,Web页面等数据挖掘的应用领域非常广泛,比如金融〔风险预测)、零售(顾客行为分析)、体育、电信、气象、电子商务等等。
    数据挖掘的研究几乎和它的应用同步进行早在20世纪80年代初期,就有一些简单的工具问世。数据挖掘工具可以分为两类:通用挖掘工具和特定领域的挖掘工具通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。而专用挖掘工具则是针对某个特定领域的间题提供解决方案。在设计算法的时候,往往会充分考虑到数据、需求的特殊性。
  2 通用挖掘产品
    2.1 IBM DB2 Intelligent Miner
    Intelligent Miner:采用了多种统计方法和挖掘算法,主要有单变量曲线,双变量统计,线性回归,因子分析,主要量分析,分类,分群,关联,相似序列,序列模式,预测等。
    它能处理的数据类型有结构化数据(如:数据库表,数据库视图,平面文件)和半结构化或作结构化数据(如:顾客信件,在线服务,传真,电子邮件,网页等)、Intelligent Miner通过其独有的世界领先技术。例如自动土成典型数据集、发现关联现序列规律、慨念性分类和可视化呈现。可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一核套数据挖掘操作。若有必要,对结果数据集还可以靛夏这一过程,直至得到满意结果为止。根据IDC的报告Intelligent Miner月前是数据挖掘领域最光进的产品它采取客户/服务器(CTS)架构,并且它的API提供了C++类和方法:
    Intelligent Miner可用于行销、财务、产品管理和客户联系管理领域的数据分析人员和业务技术人员o Citibank是美国名列第二的银行,是首先采用IBM业务智能系统的大型企业之一,The Bankof Montreal也是成功运用IBM DB2 Intelligent Miner的案例之一IBM DB2 Intelligent Miner for Data Version 6提供了一套分析数据库的挖掘过程、统计函数和查看、解释挖掘结果的可视化工具。它叮以从企业数据集中验证并析取高价谊的商收知识,包括大垦交易数据的销售点,ATM(Automatic Teller Machine),信用卡,呼叫中心,或电子商务应用分析家和商业技术专家能够发现那些隐藏的、用其他类型的分析上具无法洞察的模式。工melligent Miner提供厂基本的技术和工具来支持挖掘过程,同时还提供厂应用服务支持定制应用的发展。
    2.2 DB Miner
    DB Miner是一个通用的联机分析挖掘系统,用于在大的关系数据库和数据仓库中交互地挖掘多层次的知识。其独特之处在于:紧密集成的联机分析处(OLAP:On Line Analysis Processing)和多种数据挖掘功能包括特征化、关联、分类、预测和聚类等。DBMine:目前最新版本是3.01其优点为①对关系数据,多维数据的强大的在线分析挖掘功能②通过(OLEDB和RDBMS可以连接到多种数据源。扰关联和时序算法对挖掘大数据集卜频繁的、连续的模式,相关性、依赖分析性能卓越①对数据源、挖掘任务、挖掘应用的集成⑤革新的倾斜的多维利润分析技术。⑥支持Microsoft SQL Server.Analysis Server and Excel,如OLAP,数据聚集,透视表的充分集成。⑦用户自定义参数和可视化分类,能帮助用户更好的发现知识。⑧分析关系数据和多维数据,分散的地图式的观察界面等以发现驱动的OLAP探测器,更容易的导航。
    2.3 SAS系列产品
    SAS/STAT( Statistics)提供统计分析功能SAS/ETS(Econometric& TimeS eries)为SAS提供具有丰富的汁量经济学和时间序列分析方法的产品,包含方便的各种模型设定手段,多样的参数估计方法、是研究复杂系统和进行预测的有利工具。SAS/IN SIGHT是个功能强大的可视化的数据探索与分析的一具。SAS/EM(Enterprise Miner)是一个图形化界面,菜单驱动的、拖拉式操作的、对用户非常友好且功能强大的数据挖掘集成环境其中集成了:数据获取工具,数据抽祥工具,数据
筛选工具。数据变量转换工具,数据挖掘数据库,数据挖掘过程,多种形式的回归工具,为建立决策树的数据剖分「具,决策树浏览工具,人工神经元网络,数据挖掘的评价工具等。American Health ways领导厂健康护理的一场革命。SAS/EM为判断高危病人提供了一个健壮的数据挖掘和建模解决方案,使得他们可以为病人提供周到的护理和服务AXA Financial使用SAS/EM来帮助他们建立利润较高的顾客关系策略
    2.4 SPSS系列产品
    Clementine是SPSS的核心挖掘产品,它提供了一个可视化的快速建立模型的环境,被誉为第一数据挖掘工具使用它,企业可以将数据分析和建模技术与特定的商业间题结合起来,找出其他传统数据挖掘工具可能找不出的答案组成部分包括数据获取、探查数理、建模和报告都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个“数据流”,可视化的界面使得数据挖掘更加直观和具有交互性,从而可以将用户的商业知识在每一步中更好的利用Clementine所使用的分析技术包括神经元网络、关联规则和规则归纳技术。Clementine支持顾客剖析、时序分析、市场售货篮分析和欺诈行为侦测SPSS的另一种重要的挖掘产品AnswerTree可以帮助用户确认细分市场及其模式,建立顾客档案资料,挖掘隐藏市场趋势应答树运用的分析运算法则:两类CHAIR、分类和回归
树、QUES IDec is ion Time2.0及WhatlF2.0帮助用户建立准确的预测,并利用此预测制定计划。
    2.5 BO的Business Miner
    1996年12月,美国Business Objects公司推出r数据挖掘解决方案一Business MinerBusiness Miner采用了育觉决定的树型技术,提供了简单易懂的数据组织形式,使用图形化方式描述数据关系,通过百分比和流程表等简单易用的用户界面告诉用户有关的数据信息Business-Mine:能对从数据仓库中传来的数据自动地进行挖掘分析工作,剖析任意层面数据的内在联系,最终确定商业发展趋势和规律。
  3 专用挖掘产品
    由于实 际的应用环境千变万化,目前还没有一种通用产品能适应各种商业需求,而大量存在的是各种各样的专用数据挖掘产品在专用领域中,种类最多的要数各种Web挖掘产品。
    3.1 ACCRUE Insight5
    ACCRUE Insight5是Accrue公司的上要产品,它是一个综合性的Web分析工具它能够对网站的运行状况有个深入、细致和准确的分析。它的设计是以顾客为中心的,通过分析顾客的行为模式,帮助网站采取措施来提高顾客的忠诚度,从而建立长期的顾客关系。ACCRUE Insight5利用了多种Web数据收集方法,包括高级网络收集器,服务器收集器和服务器日志,而不是像很多网站那样仅仅分析日志文件高级网络收集器以其能收集到最大量的数据而著称.它能够收集到服务器日志里所得不到的信息,例如按下“停止”键,下载的时间等一些对犷网站分析有用的信息。但是对于加密的部分或者与它不适用部分则用到另外两种方法根据原始数据,Accrue Insight 5运用了一种叫做“服务器收集器”的分析方法,它支持镜像服务器和负载平衡、路由器和一些其他网络结构设备,能够将些加密的地址转化为地址分析的形式.
    3.2 E.P IP HANY Enterprise Insight
    E. P IP HANY Enterprise Insight提供了一个独特的、完全集成的系统,为管理人员、分析人员还有其他商业人员传递商业信息。Enterprise Insight应用套件使用一个通用的元数据层,定义了所有的数据源,分析性能,信息传送应用。基于Web的结构使得系统易于配置,易于使用,易于维护。它即可以作为一个独立的应用软件使用,也可以作为E.P系统在市场、销售、服务领域的解决方案套件。和所有的E.P IPHANY产品一样,Enterprise Insight呈现r一个广泛的、一致的消费者的视图、一个强有力的观察,可以使企业的组织从市场、销售、服务等工作中得到最大的利润企业上下的用户都可以得到深人的商业信息.并且可以立即付诸行动。有Enterprise Insight,企业可以和顾客、合作伙伴建立更稳固的关系。
   E.P IP HANY  Enterprise Insight能提供在电子商务中极具竞争价值的顾客信息。Enterprise Insight for E Commerc提供了分析顾客数据的能力,包括来至网络的数据和传统的数据源。它可以让企业针对所有的顾客数据源,跟踪他们的网络行为和引导他们的Web活动Enterprise Insight for E Commerc。包括了一系列预包装的、易用的报表模板,对Web活动进行复杂的分析。根据领域专家的意见,E.P IPHANY已经验证了相当多的系列的关键的电子商务的属性和指标.井且已经建立厂大范围的一个报告套装它通过提供关键领域的深入分析,比如站点活动,顾客喜好,在线销售,错误报告,标语广告活动等,回答关键的电子商务的问题
    3.3 其他挖掘
    例如Advanced Scout TM是和IBM合作完成的数据挖掘的商业应用它的月的是帮助NBA教练运用商业智能的技术和数据挖掘来验证隐藏在大量全异的数据里的模式,进而影响一场专业比赛的胜负。通过使用来源于现场数据收集系统的事件数据(EVENT DA'T'A)以及类似于NBA比赛录像的无结构数据,先进的侦测系统帮助教练进行预赛和赛后分析,甚至实时现场分析,这样就能更好了解队员组合是否有效、投篮特性等。
    4 国内的数据挖掘应用
    目前国内真正应用数据挖掘的公司还不多,比较成功的有菲奈特融通公司和广州华工明天科技有限公司。
    4.1 菲奈特一融通公司
    菲奈特一融通在IBM数据挖掘软件的基础上开发了商业智能套件BI.Office,在BI.Offic。的基础上又开发了系列的BI.Bank,B I.T axation,B I.E LectrieP ower,BI.R etail,BI.Insurance,BI.Telecom借助IBM巨人的力量,现在是国内最有实力的数据挖掘公司。BI.Office能简单、迅速地为企业构建其专有的决策支持系统,赋予企业管理层一个强有力的武器得以在授权范围内全面、详细、及时地了解公司运营状况,作出合理的决策。BI.Bank是针对银行业适时推出的一套完整的商业智能解决方案,为行提供决策支持并实现信息共享、加强客户关系管理。BI.Bank包括银行决策支持系统、客户关系管理、银行信息中心等针对不同使用对象的子系统。BI.B ank利用数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)以及Web等核心技术,并采用了数据库服务器(DBSERVER)、应用服务器(APPSERVER)、用户端(C/B)三层架构BI.T axation税务决策分析与辅助决策系统是菲奈特融通公司针对税务部门开发的分析与辅助决策系统
    4.2 广州华工明天科技有限公司
    广州华工明天科技有限公司开发了多功能数据挖掘器(AFDM 1.0)0该产品的特点如下:多平台、企业级的数据挖掘;数据分类和处理功能;多种挖掘算法;串行、并行计算环境;可视化的结果分析工具它提供了三方面的功能:挖掘、处理、统计。
    4.3 应用经验探讨
    本人主要参与的是数据仓库的开发工作,在国家开发银行的基础数据库系统里,一期工程主要是集中抽取了需要的数据,呈现了全局一致的视图,采用了丰富灵活的OLAP分析方法,生成报表,给不同层次的使用人员提供了决策的依据。预计在_期工程中加人一定的数据挖掘功能,在系统中嵌入一些挖掘算法和模块,比如分类和预测等。必须强调的一点是,人们通常把数据挖掘看得过于神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,这是认识上的一个误区经验证明,要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识付诸应用或者。使用专家托管式服务,选择一个专门从事数据挖掘的公司,深入理解公司业务需求,与业务人员配合完成挖掘任务。而在国内的企业中,决策人员很容易走向两个极端,一是认为数据挖掘没有用处.二是开始认为数据挖掘是万能的。这两种观点都是有害的
  5 结论
    数据挖掘从诞生到现在不过十多年的时间,在这短短的十几年里,它吸引了各个行业的研究人员、工业界人士的兴趣。目前,它已成为最近几年对人类生活影响最大的几项IT技术之一。在产业界,涌现出许多新兴的数据挖掘相关产品供应商,数据挖掘的应用已取得初步的成功。随着人们对信息的重视程度不断加深,数据挖掘的前途必将是光明的。但是 ,数 据挖掘作为一门新兴的科学和技术,它的发展还处于幼年期,要想使之得到广泛充分地应用,必须面对的挑战为①建立基础的数据挖掘理论体系;②提高数据挖掘算法的效率和处理能力;③改善数据挖掘系统的人机界面;④分布式挖掘和实时挖掘;⑤挖掘各种数据类型,包括半结构和无结构数据。 本文作者:张晓明 刘萍 王鹏 来源:万方数据
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的