当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene网页排名改进的分布式搜索系统

发布时间:2017-04-10 21:51

  本文关键词:基于Lucene网页排名改进的分布式搜索系统,由笔耕文化传播整理发布。


【摘要】:近年来,互联网信息量日益庞大,如何从海量数据中高效准确定位到目标信息成为搜索引擎的一大挑战。构建大规模集群实现对目标信息的分布式并行搜索是应对上述问题的重要途径,这为分布式搜索领域的高速发展提供了土壤,许多与此相关的技术很快出现,如Hadoop、Spark等,与此同时,对信息进行准确筛选与过滤显得尤为重要,这便要求完善信息评判机制,以实现对信息的有效甄别。在上述前提下,本文深入分析了搜索引擎的相关原理和实现机制,详细介绍了Hadoop相关技术和开源工具Lucene相关技术,并在此基础上展开了构建高性能搜索引擎的研究工作。首先,为实现信息采集过程中URL高效过滤与去重,本文采用嵌入式数据库Berkeley DB记录已处理链接队列,Berkeley DB与调用程序共享内存空间保证了访问的快捷性。其次,本文采用追加方式进行索引更新,针对新加入数据不必重建整个索引,而是为新数据单独生成索引文件,并且可以独立访问。当追加索引文件个数达到阈值时引发合并操作,本文通过实验选取了最优阈值大大提高了构建索引的效率。然后,分析了已有的几种网页评分算法的优缺点,基于Lucene固有的网页评分算法做出了改进,提出了基于词频位置加权和文档新鲜度的网页评分算法,本算法不单是关注查询关键词在网页中出现的次数,还将查询词在网页中出现的位置以及网页的新鲜程度作为网页得分的重要影响因子,这种方式能够更加全面地评判网页的优劣程度。最后,本文先基于开源Java工具包Lucene构建出单节点搜索子系统,子系统具备完整搜索引擎的各个组件,能够独立提供搜索服务,在此基础上,利用Hadoop技术建立了由三个单节点子系统构成的小型集群服务系统,实现了数据的分布式冗余存储和索引构建的高效并行,并将改进后的网页评分算法应用于分布式系统上,对改进前后搜索结果的正确率做了比较,实际实验证明新算法优于Lucene固有算法。
【关键词】:索引优化 Lucene Hadoop 网页评分机制
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-14
  • 第一章 绪论14-22
  • 1.1 课题背景14-17
  • 1.1.1 搜索技术的诞生与成长14-16
  • 1.1.2 搜索技术现状16-17
  • 1.2 课题研究意义17-19
  • 1.3 国内外研究现状19-20
  • 1.4 本文研究内容及章节安排20-22
  • 第二章 分布式搜索相关介绍22-32
  • 2.1 Heritrix网络爬虫22
  • 2.2 Lucene技术22-25
  • 2.3 中文分词技术25-28
  • 2.4 Hadoop平台28-30
  • 2.4.1 HDFS存储28-29
  • 2.4.2 Map-Reduce模型29-30
  • 2.5 分布式搜素引擎30-31
  • 2.6 本章小结31-32
  • 第三章 系统优化策略与评分机制改进32-38
  • 3.1 系统优化策略32-35
  • 3.1.1 URL高效处理与过滤32-33
  • 3.1.2 索引更新优化33-35
  • 3.2 网页评分机制改进35-37
  • 3.2.1 已有的网页评分算法35-36
  • 3.2.2 Lucene固有的网页评分算法36
  • 3.2.3 基于Lucene固有算法的改进36-37
  • 3.3 本章小结37-38
  • 第四章 分布式搜索系统设计与实现38-60
  • 4.1 系统总体介绍38-39
  • 4.2 单节点子系统设计与实现39-51
  • 4.2.1 子系统概述39
  • 4.2.2 信息采集模块介绍39-44
  • 4.2.3 信息索引模块介绍44-48
  • 4.2.4 信息检索模块介绍48-49
  • 4.2.5 结果展示模块介绍49-51
  • 4.3 多节点集群系统构建51-57
  • 4.3.1 Hadoop平台的搭建51-54
  • 4.3.2 Hadoop平台下分布式索引与搜索的构建54-57
  • 4.4 系统的准确率分析57-58
  • 4.5 本章小结58-60
  • 第五章 总结与展望60-62
  • 5.1 研究结论60
  • 5.2 展望60-62
  • 参考文献62-64
  • 致谢64-66
  • 作者简介66-67

【参考文献】

中国期刊全文数据库 前2条

1 马福晶;;网络环境下的信息检索[J];电脑与电信;2007年12期

2 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期


  本文关键词:基于Lucene网页排名改进的分布式搜索系统,,由笔耕文化传播整理发布。



本文编号:297615

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/297615.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f44ce***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com