当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的基础排序算法的研究及其改进算法的应用

发布时间:2017-05-10 10:03

  本文关键词:基于Lucene的基础排序算法的研究及其改进算法的应用,,由笔耕文化传播整理发布。


【摘要】:进入21世纪以来,互联网得到了迅速发展,互联网的信息资源越来越丰富,信息量越来越大,呈指数级增长。而人们对互联网的依赖越来越紧密,在互联网上查询信息资源也越来越频繁。互联网的信息资源如此巨大,想要快速、准确地在海量的信息资源库中查询到所需的资源,就必须使用良好的搜索引擎工具。搜索引擎为网络用户提供了信息检索服务,属于互联网应用软件,该系统按照一定的检索策略为用户提供信息检索服务,并将检索结果排序为用户提供互联网信息查询服务。目前,随着搜索引擎技术的发展,越来越多的机构和人员将搜索引擎作为研究热点,为此,Apache基金会推出了一个开源的全文搜索引擎工具包Lucene。本论文采取两种研究方案,先在Lucene全文搜索的功能角度去研究数据排序算法,通过研究现有的排序算法:倒排算法查询速度快、存储空间小,可以提供排序查询功能但是不能快速的支持短语查询,不能很好适应中文等词边界未确定语言。后缀树和后缀数组索引模型支持短语查询与自索引功能并且对词边界未确定语言有很好适应性但是不支持排序查询;再分析各自的优缺点进行对比,进而得出其适用于Lucene全文检索领域的算法。再通过对常用算法的应用研究,提出一种改进的数据排序算法:SA-PL索引模型,该模型利用后缀数组可以支持短语查询、自索引和词边界未确定语言适应性且与后缀树相比存储空间小的特点,将后缀数组与倒排表相结合。根据SA-PL索引模型概念,设计了SA-PL-0索引模型。在SA-PL-0的基础上提出一种通过移除较短倒排表对索引空间进一步压缩的索引模型SA-PL-1。该模型可提高查询速度、减少存储空间,进而实现Lucene环境下数据排序的高效性。最后选择合适的平台和环境对改进算法进行实验检验,实验表明,SA-PL-0和SA-PL-1索引模型可以提供排序查询、短语查询和自索引功能并且对词边界未确定语言有很好适应性,其索引存储空间和索引查询时间综合性能显著优于以往的索引模型。
【关键词】:Lucene 倒排索引 后缀数组 SA-PL索引模型
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-17
  • 1.1 研究问题的背景10
  • 1.2 国内外搜索引擎的发展及研究现状10-14
  • 1.2.1 国外研究现状12-13
  • 1.2.2 国内研究现状13-14
  • 1.3 研究的内容与方法14-17
  • 1.3.1 主要技术路线14-15
  • 1.3.2 论文主要研究方案15
  • 1.3.3 论文最终目标和研究成果形式15-17
  • 第二章 相关技术和理论17-42
  • 2.1 LUCENE简介17-24
  • 2.1.1 Lucene介绍17
  • 2.1.2 Lucene的系统结构17-18
  • 2.1.3 Lucene索引机制18-22
  • 2.1.4 Lucene检索机制22-24
  • 2.2 基于LUCENE的基础算法24-38
  • 2.2.1 倒排索引理论24-26
  • 2.2.2 后缀数组算法26-31
  • 2.2.3 后缀数组索引模型分析31-36
  • 2.2.4 基础全文索引性能与功能分析36-38
  • 2.3 VISUAL C++简介38
  • 2.4 集成开发环境VISUAL STUDIO 200538-40
  • 2.5 WEB SERVICES模型40-41
  • 2.6 本章小结41-42
  • 第三章 基于LUCENE改进算法的全文索引模型的分析与设计42-54
  • 3.1 SA-PL索引模型介绍42-44
  • 3.1.1 SA-PL索引模型的基本思想42
  • 3.1.2 SA-PL索引模型设计中的主要问题42-43
  • 3.1.3 SA-PL索引模型设计中核心问题的解决思路43-44
  • 3.2 SA-PL索引模型有效性预期分析44
  • 3.3 SA-PL索引模型设计44-48
  • 3.3.1 SA-PL-0 索引模型结构设计44-46
  • 3.3.2 SA-PL-0 索引模型构造算法46-47
  • 3.3.3 SA-PL-0 索引模型查询算法47-48
  • 3.4 SA-PL-1 索引模型48-50
  • 3.4.1 SA-PL-1 索引模型基本思想48-49
  • 3.4.2 SA-PL-1 索引模型g惴

    本文编号:354494

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/354494.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4073c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com