首页  ·  知识 ·  大数据
WEB数据挖掘的概念与方法
冯迪 李晋宏 曹原  收集  实践应用  编辑:德仔   图片来源:网络
1、引 言 随着Internet的普及,电子商务的兴起,正在改
1、引 言

    随着Internet的普及,电子商务的兴起,正在改变着人们的商务理念,经销商和客户之问通过互联网进行交易,节省了大量的费用和时间。通过Web进行商务活动带来的便利和它所产生的交易速度是电子商务迅猛发展的关键推动力。另一方面涉及客户端的电子商务活动也正在进行着巨大的革新。如果能够跟踪客户在Web上的浏览行为并进行模式分析,这样将会缩短销售商与客户之间的距离,让销售商更了解自己客户的需求,有针对性的开展电子商务活动。如何更快、更好的利用这一现代交易手段,缩短经销商和客户之间的距离,这是目前电子商务亟待解决的问题。

    我们知道,在Internet的客户只要连接到一个在线市场的服务器上,就已经留下了一个日志文件。如果能跟踪客户在Web上的浏览行为并进行模式分析,就能很好地解决这一问题。这正是目前Web数据挖掘研究的领域。在在线市场访问的每一个客户,都会在它的服务器上留下日志文件,通过对这些日志文件进行挖掘,如客户的访问行为、频度、内容、时间等,提取客户相关的知识,展开有针对性的电子商务行为。比如通过web数据挖掘就可以根据客户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,给客户个性化的界面,更好的满足访问者的要求。

2、电子商务中WEB数据挖掘的概念及来源

    基于WEB数据挖掘的确切定义到目前为止还没有很明确而权威的说法。国外有人认为基于WEB数据挖掘就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。国内则认为是在大量己知数据样本的基础上得到数据对象间的内在特性并以此为依据在WEB中进行有目的的信息提取过程。

    电子商务中WEB数据挖掘的来源主要有以下两个:服务器的数据以及客户登记的信息。

    所谓服务器的数据就是指客户浏览网页以后所留下的日志文件。这些日志文件中存储着有关于客户连接的物理信息。比如,客户的来源,通过这一点,我们就可以知道某种商品在哪个地域更受欢迎,从而更加有针对性地销售,另外,通过这些日志文件,我们还可以得到查询数据:查询数据是电子商务站点在服务器上产生的一种典型数据,它是在线客户在查询所需信息时生成的。如在线存储的客户也许会查询某些产品或广告信息,这些查询信息通过Cookie或是登记信息连接至明艮务器的访问日志上。通常将查询数据和Cookie存入单独的日志中。但是,目前还没有一个标准的查询数据格式。

    WEB数据挖掘的另一个来源就是客户登记的信息。当客户进行浏览时,在WEB网页上输入并提交的信息。例如,在注册一个新用户时,客户可能需要输入以下信息,包括,用户名,性别,年龄,身份证号;当客户在站点购买某商品时,则要提交商品的名称,数量,价格等信息。这些信息和服务器的日志结合起来,就变成了很有价值的WEB数据挖掘的来源。通过这些数据,我们可以分析出许多潜在的关联。例如,被人们广为讨论的“啤酒与尿布”的案例。某超市通过对顾客购买留下的信息进行分析,得到买啤酒的客人很大程度匕都买了尿布,从而超市改变了商品的摆放位置,更加方便了顾客的购物。这一看似毫无关联的现象却通过“数据挖掘”这一强有力的手段得到了展现。所以,当数据挖掘应用于web电子商务,它势必也能起到相同的作用,甚至更大的功效(因为,在web上,我们记录了更多的数据)。

    另外,WEB数据挖掘还存在—个重要来源,那就是代理服务器端数据。代理服务器相当于在客户浏览器和web服务器之间提供了缓存功能的中介服务器。它的缓存功能减少了Web服务器的网络流量,加快了网页的运行速度,同时将大量的用户访问信息通过代理日志的形式保存起来。

3、WEB数据挖掘过程与方法

    3.1 挖掘过程


    对在线访问客户数据的挖掘主要有两部分:一部分是客户访问信息的挖掘,另一部分是客户登记信息的挖掘。面对大量的访问日志,首先要做的就是对数据进行清洗,即预处理,把无关的数据,不重要的数据等处理掉,接着对数据进行事务识别,通过对事务进行划分后,就可以根据具体的分析需求选择模式发现的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。

    3.2 挖掘方法

    包括关联规则的分析,路径的分析,分类规则的发现,聚类规则的发现等。

    关联规则的分析挖掘数据中项集之间有意义的关联或相关联系。关联分析是寻找数据库中数值的相关性,常用的技术是关联规则和序列模式。从大量商业数据中发现有意义的关联关系,可以帮助商业决策的制定,如交叉销售和优惠促销行动等。

    表达某—特定关联出现的频率在关联规则中称为支持度;当情况一出现时,发生情况二的概率在关联规则中称为可信度。关联分析得到的模式需要其它数据验证其正确性,并进行必要的试验,来保证利用历史数据得到的规律有效的应用于未来的环境。比如,设计超市商品摆放在货架的位置,把相关性强的商品摆放在一起,可能会导致这样的情况发生:顾客非常容易的找到需要的商品,就不会去考虑哪些不在购买计划内的商品。所以,在实施之前一定要经过充分的分析和试验。在web数据挖掘应用于电子商务时,当客户访问某一网页时,一般会通过兴趣词条找出相关的兴趣网页通过链接继续访问,这种关联产生的数据如果能够按照某种策略进行挖掘分析,统计出客户访问某些页面及兴趣关联页面的比率,就可以很好的组织站点,实施有效的市场策略。为此,需要对页面的节点、节点问的链接、兴趣节点及兴趣节点之间的关联进行说明和定义,找出它们之间的关系。如用关联规则技术,我们可以发现,如果客户在一次访问行为中,访问了页i面/company/product,一般也会访问页面/company/product1。再如客户在线购买某一品牌的牛奶,—般也会购买某一品种(另一品牌)的面包。进行Web上的数据挖掘,构建关联模型,我们可以更好地组织站点,减少用户过滤信息的负担。

    路径分析可以被用于判定在一个Web站点中最频繁访问的路径。还有一些其它的有关路径的信息通过路径分析也可以得出。如70%的用户端在访问/company/product1时,是从/company开始,经过/company/news,/company products,/company/product1,80%的访问这个站点的客户是从/company/products开始的,65%的客户在测览4个或更少的页面后就离开了。第1条规则在/company product2页面上有有用的信息,但因为客户对站点进行的是迂回绕行的访问,所以这个有用信息并不明显。第2条规则说明了客户对站点的访问一般不是从主页开始的,而是从/company/products开始的,如果在这个页面上包含一些产品的目录类型的信息,将是一个不错的主意。第3条规则说明了客户在网站上驻留的时间。既然客户在这个网站上浏览一般不超过4个页面,就可以把重要的商品信息放在这些页面中。通过路径分析,可以改进页面及网站结构的设计。

    序列模式分析的侧重点在于分析数据间的前后或因果关系。就是在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部事务模式。如在/company/product1上进行过在线定购的顾客,有60%的人在过去10天内也在/company/product2处下过定单。再如,在线定购过电脑的客户,60%的人会在2个月内定购打印机和纸张。发现序列模式能够便于电子商务的组织者预测客户的访问模式,对客户提供个性化的服务;网站的管理员可将访问者按浏览模式分类,在页面上只展示具有该浏览模式的访问者经常访问的链接,而用一个“更多内容’’指向其它未被展示的内容。当访问者浏览到某页面时,检查他的浏览所符合的序列模式,并在显眼的位置提示钫问该页面的人通常接着访问”的若干页面。Web上序列模式挖掘问题由于其数据源和需要挖掘的模式的特殊性,许多问题有待解决。如访问序列的集成,用户对感兴趣的序列模式上的约束表达及带约束的序列模式挖掘算法等。

    分类分析法的输入集是一组记录集合和几种标记,首先为每—个记录赋予一个标记,即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。在电子商务中通过数据挖掘,如发现在/company/product1进行过在线订购的客户中有60%是20-30岁生活在大中城市的年轻人。得到分类后,就可以针对这一类客户的特点展开商务活动,提供有争t-x寸性的个性化的信息服务。

    聚类分析法不同于分类规则法,其输入集是一组未标定的记录,也就是说此时输入的记录还没有进行任何分类。其目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别,目前己开发出很多的聚类分析工具。在电子商务中通过聚类具有相似浏览行为的客户,使管理员更多地了解客户,提供更适合、使客户更满意的服务。如有一些客户这段时间经常浏览“furuitune”,经过分析这些客户被聚类为一组,就可以知道这是一组即将结婚的客户。对他们的服务就应该有别于其他的聚类客户如“大学生组”、“白领阶层组”。这样,Web可自动给这个特定的顾客聚类发送新产品信息邮件,为这个顾客聚类动态地改变一个特殊的站点。在一定程度E满足客户的要求,这对客户和销售商来说更有意义。

4、结 论

    电子商务正在企业和商贸领域占据着越来越多的市场份额,Web挖掘主要用于商品的市场定位和消费分析,以辅助制定市场策略,还可以用来分析购物模式,预测销咨行情。现在世界上的主要数据库厂商纷纷开始把数据挖掘功能集成到自己的产品中。IBM,Microsoft等大公司都在自己的产品或相应产品上增加了在线分析处理(OLAP),IBM公司开发的QUEST和Intelligent Miner系统可以挖掘客户的购物行为模式。Microsoft公司日前发布了一个基于XML的数据访问协议,该协议能使开发商为各类客户和开发平台提供数据分析。XML for Analysis是一个支持应用开发商将商业智能.NETWeb服务的协议。随着OLE DB for OLAf(联机分析处理)和OLE DB for Data Mining(数据挖掘)的发展,该协议支持对Microsoft数据源的访问并支持基于Web的数据挖掘。

    我国在这—领域正处在研究开发阶段,应用和产品还相对滞后,但现在正在起步,因为这一新兴领域不但有很好的研究和应用前景,而且有很好的商业机会。
 
本文作者:冯迪 李晋宏 曹原 来源:网络收集
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的