首页  ·  知识 ·  架构设计
基于黄页搜索引擎的关键词排名广告系统的设计与实现
倪 俊 峰  本站原创    编辑:dezai  图片来源:网络
lang=EN-US>1 "mso-spacerun: yes"> "FONT-FAMILY: 宋体; mso-ascii-font-fa

1  引言

以通讯技术和网络技术为代表的新技术对传统的企业运营模式形成了巨大的冲击,传统业务和企业都在面临不可避免的转型。中国电信正在实现从传统基础网络运营商向现代综合信息服务提供商的转变,黄页(Yellowpages),作为电信业务的重要组成部分,同样面对巨大的机遇与挑战。

信息存储和发布技术的迅速发展以及用户使用习惯的改变是传统黄页市场开始分化的主要推动力:数字存储技术已能做到把几百万家企业信息存储到移动通信设备中;基于互联网的信息发布技术无远弗届,拓展了黄页信息的发布范围;更重要的原因是,伴随近十年互联网成长起来的年轻一代,已普遍接受以网上冲浪(Surfing)的方式获取信息,赋予黄页“以手代步”以新的涵义。消费者行为的改变,是任何企业在新产品设计时必须优先考虑的因素。

传统纸质黄页和网络黄页最大的区别在于其查询方式。纸质黄页的查询方式是通过分类(Classificaiton);网络黄页的查询方式是通过搜索引擎和关键词(Keyword),因为据统计,80%以上的用户通过各种搜索引擎使用关键词获取信息。由此我们不难理解并进而预见:传统黄页业务的赢利点在于分类广告,而网络黄页的赢利点将在于基于搜索引擎的关键词广告。

网络黄页搜索引擎和基于其开发的新业务,就是在这种背景下应运而生的。

2  黄页搜索引擎的特点和系统实现

2.1  黄页搜索引擎的特点

      所谓搜索引擎(Search Engine),并没有一个精确的定义,在用户口语中,泛指专门提供网页搜索服务的网站,如GoogleBaidu等。这些搜索引擎一般都通过所谓网络机器人(robot)或网络蜘蛛(spider)在因特网上扫描、采集网站,作为索引的基础。

      黄页搜索引擎,区别于一般意义上以提供网页搜索服务为主要目的的搜索引擎,主要有以下特点:

1 它提供的信息比一般搜索引擎更集中,主要提供企业及其产品、服务等相关信息。

2 它的数据源主要是中国电信的电话装机信息和黄页所采编、核对的企业信息,具有较高的准确性。

3 它的服务对象集中在企业单位和商务人士。

2.2  全文检索技术

实现搜索引擎的核心技术,是全文检索(Full-Text Search)技术,属于信息检索即IRinformation retrieval)技术的范畴。它最早的应用领域是图书管理,解决的主要难题是如何在浩如烟海的文献资料中找到读者需要的资料。在文献检索的领域里产生了关键词(Keyword)的概念,通过若干个词组来描述某篇文献的主要内容,这样,信息检索系统就可能通过比较读者输入的关键词与文献标引关键词之间的符合程度来查找最符合读者需求的文献资料。

      计算机技术的发展,不断为信息检索注入新的活力。人们希望能自动为文献做摘要,甚至自动进行分类。于是带动了诸多学科的发展,比如自然语言的理解,自动切分技术等等,构成了全文检索技术的基石。

      在这些技术的基础上,人们发明了各种索引方法,比如倒排序、B+树、计算文献相似度的算法。这些技术成功地解决了图书数字化的难题。它们应用到因特网的搜索引擎的构造中,为信息检索这个有着超过三十年历史的学科带来了新的活力。

2.3  黄页搜索引擎的选型

      搜索引擎基于全文检索技术,又以网站的形式对外服务,在其实现中有几个关键的指标:

1 支持大数据量。

2 高响应速度。

3 中文切分。

实现黄页搜索引擎有以下三种方案:

1 基于数据库(DBMS)实现

自行开发切分和索引算法,利用DBMS(数据库管理系统)实现。这个方案的缺点是虽然能利用数据库系统的查询功能实现一部分搜索引擎的功能,但由于没有使用真正的全文检索技术,所以性能较差,在大数据量的情况下不能保证响应速度。这个方案的优点是数据库的结构化特征符合黄页企业的信息存储特点,管理方便,数据更新容易。

2 基于数据库的全文检索服务

一些数据库管理软件,如OracleSQL Server,都在基本的数据库管理功能之外,附加了全文检索功能。这个方案的优点是查询速度得到了很大的提高,而且与数据库结合较好。但问题是它们一般都不提供符合汉语特点的切分词表,所以切分效果较差。这是中文迥异于英文的地方,英文有天然空格作为分隔符,在一个句子中把英文单词分开,所以英文的分词相对比较简单。主要处理的是英文单词的时态、复数形式和一些变形,这是诸如英文的拉丁语言在文字切分方面的优势;反观汉语,它不是基于字母,而是基于六千多个常用字所组成的拥有无穷变化的连续词组所组成的一种语言。汉语的多义性为基于语义的正确切分带来了很大的困难。举例而言:“中华人民共和国”是一个专有名词,如果在搜索引擎中查询“华人”时出现“中华人民共和国”就明显不符合查询者的本意。基于数据库的全文检索往往由于不能很好地解决汉字切分问题,使得查询结果不能令人满意。

 1  黄页搜索引擎系统结构示意图3 商品化的全文检索软件

近年来,各种全文检索软件在市场上不断推出,它们各有优劣。主要的有国内的TRSBaidu、国外的Autonomy等。它们有的具有传统文献检索的基础,有的具有搜索引擎网站的实际经验,有的具有智能查询的功能,可以根据实际情况加以选用。

            经过比较和选择,黄页搜索引擎采用第三种方案实现。

2.4  黄页搜索引擎的系统结构

我们使用Weblogic服务器作为Web服务器和应用服务器,当负载增加时可以方便地扩充。选用Baidu WST全文检索服务器与内部网的黄页数据库进行数据同步和更新索引(见图1)。系统自20048月上线以来,运行稳定,对外提供全国黄页信息查询服务,每日查询请求约30万次,峰值达100万次,能保证查询响应在1秒以内。

3  关键词排名广告系统的实现

      全文检索系统与传统数据库查询的区别在于前者的查询结果是按输入的查询条件与被索引的数据(黄页企业信息)的相似程度来排序的,企业用户并不能控制其在查询结果中的位置。为了得到更高的曝光率,企业用户自然希望自己的企业在查询结果中的位置能够控制,处于查询结果的前列,这种需求导致了一种新的黄页业务,也就是黄页关键词排名业务的应运而生。

      黄页搜索引擎和关键词排名广告将传统的黄页与数字时代接轨,颠覆了传统黄页的出版周期,广告可以即时发布。这个系统供全国各地的代理商同时使用,基于B/S(浏览器/服务器)模式实现,我们选用了J2EEJava 企业级第2版)规范来实现这个系统。

3.1  J2EE技术

JavaTM 2 企业版(JavaTM 2 Enterprise EditionJ2EE)是开发并部署企业应用程序的环境。J2EE 平台由服务、应用程序编程接口(Application programming interfacesAPI)及协议所组成,该协议提供了开发多层的且基于 Web 的应用程序的功能。

      Enterprise JavaBeans 这一名称利用了 Java bean 这种可移植、可重用 Java 软件组件的声望。Enterprise JavaBeans 技术把 Java 组件的概念从客户机域扩展到了 服务器域:这是 Java 技术成长过程中有重大意义的一步,它使 Java 技术发展成为一种强健的、可伸缩的环境,能够支持以任务为关键的企业信息系统。

      J2EE为开发跨平台、可伸缩的企业级应用系统提供了坚实的基础。我们选择使用Jbuilder2005WebLogic8.1sp4进行开发。

3.2  系统功能

      系统实现了黄页排名广告的代理商在线提交订单、客户管理、账务管理,总部的代理商管理、订单审核和各种销售情况的查询功能(见图2)。

      该系统已在中国电信黄页网运行了近一年,发展代理商30余家,处理订单5000余个,支撑了该项黄页新业务的发展。

4  小结

      本文首先介绍了中国电信黄页业务在因特网发展的背景下,进行黄页搜索引擎和关键词排名广告新产品、新业务开发的情况。其次对搜索引擎的原理及其在黄页网站中的实现进行了分析。提出了引进搜索引擎的选型原则和三种方案的比较,并介绍了黄页搜索引擎的系统结构和运行情况。最后简单介绍了使用J2EE技术实现B/S结构的黄页关键词排名广告管理系统的基本情况。

 2  黄页搜索关键词排名广告代理商管理系统

倪俊峰  中国电信集团黄页信息有限公司工作。

本文作者:倪 俊 峰 来源:本站原创
CIO之家 www.ciozj.com 微信公众号:imciow
   
免责声明:本站转载此文章旨在分享信息,不代表对其内容的完全认同。文章来源已尽可能注明,若涉及版权问题,请及时与我们联系,我们将积极配合处理。同时,我们无法对文章内容的真实性、准确性及完整性进行完全保证,对于因文章内容而产生的任何后果,本账号不承担法律责任。转载仅出于传播目的,读者应自行对内容进行核实与判断。请谨慎参考文章信息,一切责任由读者自行承担。
延伸阅读