当前位置:主页 > 科技论文 > 搜索引擎论文 >

信息检索中虚拟域重排技术的研究与实现

发布时间:2017-05-14 08:01

  本文关键词:信息检索中虚拟域重排技术的研究与实现,由笔耕文化传播整理发布。


【摘要】:随着Web技术的发展,人们对于信息的需求也与日俱增。用户希望获得信息的渠道和方式更加便捷和高效,尤其是在搜索信息时,期望所需求的信息尽量排在前边,这便是SEO (Search Engine Optimization,搜索引擎优化)问题。 检索结果重排序技术的研究是SEO课题一个重要的分支,且该技术的研究也趋于多样化。近几年在查询扩展中提出了虚拟域概念,取得了很好的效果,构成虚拟域的方法有许多种,但由于计算虚拟域的工作量巨大,一般只能使用一种方法进行查询扩展,不能同时综合使用几种方法,有一定的局限性。本文提出一种新的重排序模型,将虚拟域概念应用于重排方法,重排只针对初次检索结果若干文档进行,综合运用多种虚拟域提高了重排性能。 基于虚拟域的重排模型,是用多种查询词运算构成多个虚拟域,通过线性插入法综合多个虚拟域计算待排序文档(初次检索结果前k个文档)与查询的新的相关度,依据相关度给出新的排序。根据查询词运算符or、and、gram和phrasal设计和实现了查询词映射和构建虚拟域的算法。相关度的计算是基于传统的BM25,在其基础上实现了虚拟域重排模型。研究分析了or、or-and、or-gram、 or-and-gram、or-and-gram-phrasal等5种组合的虚拟域计算方法对重排序的影响,结合已有的经验,通过大量的实验优化了模型中各个参数。本文创新之处在于结合多种运算来计算虚拟域,突破了原来单一运算符的局限,这种方法得到的文档与查询的相关度更为准确。在多个TREC集上进行了实验,实验结果表明本文所提出的模型能够有效地提高重排性能。
【关键词】:信息检索 语言模型 虚拟域 BM25 重排序
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 绪论11-15
  • 1.1 研究背景11-12
  • 1.2 国内外对虚拟域和重排序技术的发展及研究现状12-13
  • 1.3 主要研究内容13-14
  • 1.4 论文组织结构14-15
  • 第二章 相关理论与技术介绍15-23
  • 2.1 信息检索框架的Source-Channel Framework表示15
  • 2.2 信息检索模型介绍15-19
  • 2.2.1 布尔模型16
  • 2.2.2 向量空间模型16-17
  • 2.2.3 概率模型17-18
  • 2.2.4 语言模型18-19
  • 2.3 语言模型的平滑技术19-21
  • 2.4 信息检索的评价指标21-22
  • 2.4.1 查准率与查全率21
  • 2.4.2 平均查准率21-22
  • 2.4.3 P@N22
  • 2.5 本章小结22-23
  • 第三章 检索结果的虚拟域重排序技术研究23-35
  • 3.1 重排序相关理论和技术23-25
  • 3.1.1 检索结果重排问题23-24
  • 3.1.2 检索结果重排方法和融合技术24-25
  • 3.2 BM25排序模型25-27
  • 3.3 虚拟域27-32
  • 3.3.1 引导例子27-29
  • 3.3.2 域和虚拟域的概念29-31
  • 3.3.3 相关性得分的计算31-32
  • 3.4 基于虚拟域重排序的模型32-34
  • 3.5 本章小结34-35
  • 第四章 系统实现与功能模块设计35-42
  • 4.1 基于虚拟域重排技术的系统实现35-37
  • 4.2 相关算法设计37
  • 4.3 功能模块设计37-41
  • 4.3.1 查询、文档分析及索引建立模块38-40
  • 4.3.2 文档检索模块40
  • 4.3.3 检索结果的重排序模块40-41
  • 4.4 本章小结41-42
  • 第五章 实验与结果分析42-56
  • 5.1 实验设置42-45
  • 5.1.1 实验环境42
  • 5.1.2 实验工具42
  • 5.1.3 实验语料库及其预处理42-45
  • 5.2 实验的流程描述45-46
  • 5.3 实验结果46-54
  • 5.3.1 实验参数估计46-48
  • 5.3.2 实验结果48-54
  • 5.4 实验结果的性能分析54-55
  • 5.5 本章小结55-56
  • 第六章 总结展望56-58
  • 6.1 总结工作56
  • 6.2 展望未来56-58
  • 参考文献58-61
  • 致谢61

【参考文献】

中国期刊全文数据库 前2条

1 楼炉群;牛军钰;;信息检索中语言模型的研究[J];计算机工程;2007年04期

2 周博;岑荣伟;刘奕群;张敏;金奕江;马少平;;一种基于文档相似度的检索结果重排序方法[J];中文信息学报;2010年03期

中国博士学位论文全文数据库 前1条

1 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年


  本文关键词:信息检索中虚拟域重排技术的研究与实现,由笔耕文化传播整理发布。



本文编号:364580

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/364580.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户54d87***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com