当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分布式计算的全文检索关键技术研究

发布时间:2017-05-16 12:17

  本文关键词:基于分布式计算的全文检索关键技术研究,由笔耕文化传播整理发布。


【摘要】:网络信息化的快速普及,尤其是大数据时代的到来,使得互联网上各种异构的非结构化数据开始出现爆炸式的增长。搜索引擎技术为人们从海量的数据中快速并且有效地检索出有用的信息提供了良好的解决方案。全文检索是搜索引擎中的主要技术,它主要包含两个步骤—索引建立和索引查询。在云存储平台与分布式计算技术的快速推动下,分布式全文检索在解决集中式检索中的各种问题的同时,它开始成为现代信息检索中的一项重要技术。 本文首先介绍了分布式全文检索的研究背景和发展现状,之后分别对分布式全文索引的建立、分布式全文索引的划分组织、分布式索引查询等过程中涉及到的关键技术进行了阐述和分析。在这基础之上,本文针对分布式全文检索中的几个关键问题进行了研究,提出了一些解决方法,并且通过相关的实验来验证方法的有效性。本文的研究内容主要从以下几个方面展开: 一、首先分析了单机集中式索引构建方式的不足,提出了一种应用分布式计算框架MapReduce进行并行索引构建的方法,并且在全文检索框架Lucene上实现了分布式索引的建立。最终通过4台机器组成的Hadoop集群来将索引的建立效率提高了一倍,验证了上述方法的有效性。 二、分布式索引的划分组织方式决定了整个分布式系统的负载均衡。本文首先分析并且对比了目前两种主流的索引分割组织方案,即文档分割与词表分割。在阅读相关文献的基础上,提出了一种文本聚类方法下的索引分割组织方法。 三、由于分布式系统中索引库的数量较多,在进行检索时需要对索引库进行集合选择。目前有很多比较成熟的集合选择策略,如CORI、CRCS等,但普遍缺乏对语义的支持。本文提出了一种基于词语相似度的分布式检索集合选择策略,最后通过验证了它具有良好的查全率。
【关键词】:分布式索引 文本聚类 词语相似度 集合选择
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目录7-9
  • 第一章 绪论9-16
  • 1.1 研究背景及意义9-11
  • 1.1.1 研究背景9-10
  • 1.1.2 分布式全文检索课题研究意义10-11
  • 1.2 国内外研究现状11-14
  • 1.3 论文的主要研究内容14-15
  • 1.4 论文的组织结构15-16
  • 第二章 相关理论基础16-26
  • 2.1 全文检索技术16-18
  • 2.1.1 文本预处理16-17
  • 2.1.2 倒排索引模型17-18
  • 2.2 分布式计算技术18-23
  • 2.2.2 分布式文件系统HDFS19-20
  • 2.2.3 分布式计算模型MapReduce20-23
  • 2.3 文本聚类介绍23-25
  • 2.3.1 文本聚类概述23
  • 2.3.2 主要的文本聚类算法23-25
  • 2.4 本章小结25-26
  • 第三章 文本聚类下的分布式索引建立26-41
  • 3.1 分布式环境下的全文索引的划分组织26-28
  • 3.1.1 基于词表的索引划分组织方式26-27
  • 3.1.2 基于文档的索引划分组织方式27-28
  • 3.2 基于聚类方法的索引划分组织28-32
  • 3.2.1 文本特征向量表示29-30
  • 3.2.2 文本聚类下的索引划分组织方式30-32
  • 3.3 基于MapReduce的分布式索引建立32-40
  • 3.3.1 Lucene全文索引机制33
  • 3.3.2 MapReduce下并行索引构建方法33-37
  • 3.3.3 MapReduce下Lucene并行索引构建实现37-40
  • 3.4 本章小结40-41
  • 第四章 基于词语相似度的分布式全文检索41-50
  • 4.1 分布式全文检索流程41-42
  • 4.2 分布式检索中索引集合选择42-44
  • 4.3 基词语相似度的索引集合选择算法44-49
  • 4.3.1 词语相似度及其计算方法44
  • 4.3.2 利用《知网》进行词语相似度计算44-46
  • 4.3.3 基于词语相似度的索引集合选择算法设计46-49
  • 4.4 本章小结49-50
  • 第五章 实验及其分析50-60
  • 5.1 实验设计50
  • 5.2 实验环境与数据集50-53
  • 5.2.1 实验硬件与软件配置50-51
  • 5.2.2 Hadoop分布式平台搭建51-52
  • 5.2.3 实验数据集介绍52-53
  • 5.3 分布式全文索引构建53-56
  • 5.3.1 单机环境下集中式索引的构建效率53-54
  • 5.3.2 分布式集群并行索引的构建效率54-56
  • 5.3.3 分布式集群并行索引建立的性能分析56
  • 5.4 词语相似度计算下的聚类集合选择结果分析56-59
  • 5.4.1 实验评测指标56-57
  • 5.4.2 集合选择算法性能结果与分析57-59
  • 5.5 本章小结59-60
  • 第六章 总结与展望60-63
  • 6.1 本文工作总结60-61
  • 6.2 未来展望61-63
  • 参考文献63-66
  • 致谢66-67
  • 攻读硕士学位期间参与的科研项目67

【参考文献】

中国期刊全文数据库 前7条

1 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期

2 张刚;周昭涛;王斌;;基于主题的分布式信息检索技术研究[J];计算机工程;2006年12期

3 郭琦娟;陈通照;;全文检索系统中动态索引技术的研究[J];计算机与数字工程;2007年01期

4 翁R土,

本文编号:370820


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/370820.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户66704***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com