当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的web搜索引擎研究

发布时间:2016-06-29 01:04

  本文关键词:基于Lucene的Web搜索引擎的研究,由笔耕文化传播整理发布。


摘 要:随着科学技术的不断发展,信息技术得到了快速的增长,人类也进入了一个信息爆炸的时代。当我们面临着各类信息时,如何迅速、便捷找出自身所需的信息,已经成为了当前普遍重视的问题。从目前来看,搜索引擎能够很好的解决这个问题。本文主要对基于Lucene的web搜索引擎展开了一番研究与探讨,其中从Lucene及相关索引技术阐述出发,进而探讨了基于Lucene的web搜索引擎的构建,希望对相关行业与工作有所借鉴。

关键词:Lucene; web;搜索引擎;索引

中图分类号:TP393     文献标识码:A     文章编号:       1.引言   众所周知,搜索引擎属于互联网的应用软件系统,其指的是自动从因特网中搜集信息,通过一定的分析整理之后,将用户所需信息提供给他们的一种查询系统。搜索引擎的出现是为了解决繁琐的网络信息搜索,其能迅速对信息进行处理,然后提供用户所需的信息。从目前来看,网络上出现了一系列商业性质的Web搜索引擎,比如Google、Baidu、Sougou等,它们的出现,极大地满足了用户的需求。但是,它们自身有着商业性质,因此其自身的技术是保密的,不会对外公开。为了推进搜索引擎技术的不断发展与壮大,Apache基金会经过不断的努力与探索,在近几年推出了一种全文搜索引擎工具包,即Lucene。自从这种搜索引擎工具包诞生之后,迅速得到了全球的钟爱,不久便风靡全球。因此,基于Lucene的Web搜索引擎的研究也成为了近几年比较热门的一个问题。    2. Lucene及相关索引技术概述   2.1 Lucene概述   Lucene属于一套用于全文检索与搜寻的开放源码程序库,在这个程序库中拥有一系列应用程序接口,可以用于相应的检索与搜索,,从这里可以看出其并非一种单纯的应用程序。Lucene为我们提供的各种函数接口可以方便我们在检索与查询的时候轻松嵌入应用系统中,以此实现检索与搜索的功能。   从目前来看,基于Lucene的典型应用系统中,对于数据对象而言,只要其能转化为相应的文本格式,都可以采用Lucene进行全文检索与搜索。比如我们常用的TXT文件、PDF文件、Word文件、储存在数据库里面的数据以及Web页面等,这些都可以采用Lucene的应用系统进行相关的检索与搜索,而且效果十分明显,是当前很多用户所钟爱的方式之一。   2.2 相关核心技术概述   2.2.1 倒排索引技术   倒排索引指的是在搜索引擎系统中利用某些关键字的值去查找记录,从而按照这些关键词去建立索引的一个过程。当前,电子计算机已经成为了我们工作必备的工具,而很多时候我们都会用到索引来进行资源的搜索,而索引也是当前常用的一种提高搜索效率的方法。索引虽然可以提高搜索效率,但是由于索引方法很多,种类复杂使得索引并没有得到一种良好的发展。因此,高效的索引机制对于搜索效率的提高及搜索的规范是非常重要的,也是高效搜索系统的一个关键所在。倒排索引技术属于Lucene中的核心技术之一,同时也是高效搜索系统的一种体现。在倒排索引技术中,只需要Lucene调用几个应用程序接口便能建立索引,其中主要会经历以下三个阶段:1)将获取的原始数据利用解析器解析为可用的文本格式;2)利用分析器对文本进行分析;3)分析后得到的数据结构保存到相关的索引数据库中。   2.2.2 搜索技术   采用了Lucene进行初次搜索之后,读取出来的查询结果只是一部分,而不能所有一次性出来,一般会将与之匹配度最高的前100条按照一定的编号(ID)放到相应的缓存中,然后逐渐返回给用户。一旦这前100条结果用户都不满意或不满足,则可以继续读取后面的结果,此时搜索器就会再次展开检索,再次检索后形成的缓存会更大,相较于初次而言几乎大了一倍,接着会继续向后网页进行读取。这里举例加以说明:构建一个检索1-190条结果的搜索器,按照前文所述就需要两次检索才行,在前100条结果读取完毕之后,搜索器会继续检索从而构建一个更大的缓存,一般能存放200条结果。以此类推,若需要检索更多的结果,那么相应的增加检索次数,而相应的缓存也会跟着增大。通过这样的基础搜索处理后,得到的结果会很多,而匹配的总数越多,用户得到的满足就更大。从实际操作应用来看,一般而言前100条检索结果几乎都能让90%左右的用户满意,加之Lucene在搜索技术中的自动过滤的运用,使得那些匹配度较低的结果提前消除,大大提高了搜索的效率。   2.2.3 分词技术   Lucene具有很好的可扩展性,用户若需要实现中文检索功能,只要将Lucene中包含的词法与语言分析接口加以扩展即可。因此,对于Lucene包含的文本分析接口而言,其并不依赖任何文件的语言与格式,索引器只需要获取Token流便可以根据所需进行索引文件的创建。    3.基于Lucene的Web搜索引擎的构建   Internet在最近快速发展的十年左右,实现了一个飞跃式的跨越,自身的资源得到了迅速的增长,并且使得Web也逐步发展成为了包含各种信息资源、站点且遍布全球的信息服务网络。在这种发展推动下,一些大型的搜索引擎逐渐出现,但它们大部分


  本文关键词:基于Lucene的Web搜索引擎的研究,由笔耕文化传播整理发布。



本文编号:63023

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/63023.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7e4ab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com