当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式搜索引擎核心技术的研究与实现

发布时间:2017-07-20 09:27

  本文关键词:分布式搜索引擎核心技术的研究与实现


  更多相关文章: 分布式索引 分布式搜索 查询意图


【摘要】:伴随着大数据时代的降临,人们在日常的生产、生活和工作等多个方面都积累了海量的数据,并且每天还在以不可逆的方式在迅猛增长,由此带来了严重的信息过载问题。传统的集中式搜索引擎受存储条件和计算速度的制约,已经无法适应海量数据的快速查询,而分布式搜索引擎以大量普通的PC机为依托,采用分而治之的思想,不但可以为大数据的存储提供解决方案,并且能够为人们提供快速准确的查询结果。分布式搜索引擎涉及了许多复杂的问题和难点,为了深入研究和掌握其背后所隐藏的奥秘,本文构建了一套面向地图查询的分布式搜索引擎,以此来展开对分布式搜索引擎核心技术的研究。首先,以地图数据为基础设计合理的分布式索引结构,实现索引的动态更新,并辅以巧妙的索引压缩机制;其次,基于地理位置为地图数据的存储提供合理的解决方案,同时分布式搜索引擎各独立搜索单元采用有效的检索模型来保证各自的准确性,在此基础上配合主控服务器的查询分发策略和数据融合策略为人们提供理想的查询结果;最后,根据人们提交的查询分析其潜在的查询意图,对查询意图进行正确分类,从而将人们真正需要的信息放在最前面,以此来改善分布式搜索引擎的排名。从实验的结果来看,合理的分布式索引是搜索引擎快速查询的基础,而大量机器协同工作的分布式搜索可以有效地缩短查询的时间,并且优秀的检索模型能够按照相关性的大小返回有序的查询结果,查询意图分析则可以提供最佳的用户体验。
【关键词】:分布式索引 分布式搜索 查询意图
【学位授予单位】:辽宁科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 中文摘要5-6
  • ABSTRACT6-10
  • 1.绪论10-13
  • 1.1 课题研究背景10-11
  • 1.2 分布式搜索引擎发展状况11-12
  • 1.3 论文研究内容12
  • 1.4 论文结构安排12-13
  • 2.分布式搜索引擎基本原理13-19
  • 2.1 中文分词技术13-15
  • 2.2 倒排索引技术15-17
  • 2.3 经典检索模型17-18
  • 2.4 查询意图分析18-19
  • 3.分布式搜索引擎核心技术的研究19-28
  • 3.1 分布式搜索引擎总体设计19-20
  • 3.2 分布式索引研究20-22
  • 3.2.1 倒排索引20-21
  • 3.2.2 动态索引21-22
  • 3.2.3 索引更新策略22
  • 3.3 分布式搜索技术研究22-25
  • 3.3.1 基于位置的三层分布式检索模型22-23
  • 3.3.2 查询分发策略23-24
  • 3.3.3 独立搜索单元24
  • 3.3.4 数据融合策略24-25
  • 3.4 查询意图分析的研究25-28
  • 3.4.1 查询意图的层次分类模型25
  • 3.4.2 查询意图分类器25-27
  • 3.4.3 查询意图类别判定27-28
  • 4.分布式搜索引擎核心技术的实现28-41
  • 4.1iSearch分布式搜索平台开发环境28
  • 4.2 分布式索引技术实现28-32
  • 4.2.1 索引词典28-29
  • 4.2.2 倒排文件29-30
  • 4.2.3 倒排索引内存结构30
  • 4.2.4 动态索引内存结构30-31
  • 4.2.5 索引的建立与更新31-32
  • 4.3 分布式搜索技术实现32-36
  • 4.3.1 查询任务分发32-33
  • 4.3.2 利用概率模型计算相似度33-34
  • 4.3.3 独立搜索单元的查询34-35
  • 4.3.4 融合分布式搜索结果35-36
  • 4.4 查询意图分析的实现36-41
  • 4.4.1 分类语料预处理36-38
  • 4.4.2 特征向量表示38-39
  • 4.4.3 特征选择39-40
  • 4.4.4 余弦相似度计算40
  • 4.4.5 层次分类模型40-41
  • 5.分布式搜索引擎核心技术评测41-48
  • 5.1 查询意图分析评测41-45
  • 5.1.1 评测指标41-42
  • 5.1.2 评测结果及分析42-45
  • 5.2 分布式索引评测45-46
  • 5.3 分布式搜索评测46-48
  • 6.总结与展望48-49
  • 参考文献49-52
  • 致谢52-53
  • 作者简介53-54

【相似文献】

中国期刊全文数据库 前10条

1 陆伟;周红霞;张晓娟;;查询意图研究综述[J];中国图书馆学报;2013年01期

2 白露;郭嘉丰;曹雷;程学旗;;基于查询意图的长尾查询推荐[J];计算机学报;2013年03期

3 江雪;孙乐;;用户查询意图切分的研究[J];计算机学报;2013年03期

4 张晓娟;陆伟;;利用查询重构识别查询意图[J];现代图书情报技术;2013年01期

5 周之诚;;基于查询意图聚类的实时搜索建议[J];现代图书情报技术;2011年02期

6 唐静笑;吕学强;柳成洋;李涵;;用户查询意图的层次化识别方法[J];现代图书情报技术;2014年01期

7 文军,文贵华,丁月华;面向查询意图的搜索引擎设计与实现[J];计算机应用研究;2002年10期

8 吴晓晖;宋萍萍;张荣欣;;有无查询意图的分类与实现架构模型研究[J];情报科学;2009年12期

9 杨艺;周元;;基于用户查询意图识别的Web搜索优化模型[J];计算机科学;2012年01期

10 张美珍;王治莹;;基于用户查询意图的搜索排序算法[J];天津理工大学学报;2012年03期

中国重要会议论文全文数据库 前3条

1 王俞霖;孙乐;黄云平;李文波;;基于规则和类型还原的用户查询意图识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 高莺;沈洁;陈沧;刘春阳;叶君峰;;一种基于排序学习的查询意图预测算法[A];第五届全国信息检索学术会议论文集[C];2009年

3 华松;洪宇;张剑峰;姚建民;朱巧明;;基于相关子主题消解的悖向重排序方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

中国博士学位论文全文数据库 前1条

1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年

中国硕士学位论文全文数据库 前9条

1 张恒庆;网络用户查询意图分析[D];北京工业大学;2014年

2 王井丰;基于百度百科的查询意图分类[D];吉林大学;2013年

3 胡刚;百科知识与统计方法结合的查询意图分类[D];哈尔滨工业大学;2011年

4 张苗;基于用户查询意图的信息检索技术研究与实现方法[D];湖南大学;2013年

5 陈杰;基于Web检索的查询意图分类研究[D];华南理工大学;2011年

6 蔡桂秀;基于Markov网络团的查询意图识别[D];江西师范大学;2012年

7 张培英;基于用户行为的用户查询意图分析方法及研究[D];西华大学;2011年

8 华松;检索重排序和文献权威度判定方法研究[D];苏州大学;2012年

9 白鹏超;分布式搜索引擎核心技术的研究与实现[D];辽宁科技大学;2015年



本文编号:567390

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/567390.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8be8b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com