当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题相似度的排序学习算法研究

发布时间:2017-05-15 10:23

  本文关键词:基于主题相似度的排序学习算法研究,由笔耕文化传播整理发布。


【摘要】:搜索引擎的出现使人们获取信息的效率大大提高,怎样从海量的搜索结果中将用户最关心、最需要的信息排在返回列表的最前面,即搜索结果的排序问题是信息检索领域研究的关键问题之一,尤其是对搜索结果中位置靠前的页面进行排序优化,具有相当重要的研究意义和实践价值。排序学习,就是利用机器学习方法来解决搜索排序问题,其在信息检索、推荐系统、自动问答等方面有着广泛应用。现有排序学习方法仅考虑了查询与页面之间的相关度与重要度,没有考虑页面彼此之间的相似度信息。本文在现有的Listwise类排序学习方法的研究基础上,提出利用文档之间的主题相似度进行加权投票的方法,进一步提高了模型的排序准确性。本文的主要研究工作如下:1)本文提出了一种利用文档之间相似度来调整排序结果列表的方法,使文档的评分方式由仅依靠重要度和相关度评分,扩展为可以通过各文档的相似度进行加权投票。该方法充分利用了待排文档之间的内在关联与文本特征,以更全面的角度综合地考虑了搜索排序中文档的重要度、相关度与相似度问题,从而得到更合理的排序结果。2)本文提出的主题相似度模型,从特征词与主题分别两个角度来计算文本间的相似度,综合了两种模型各自的优势,不仅考虑了文档词级别的相似还考虑了文档之间的主题分布差异,提高了判别效果。3)实现了基于主题相似度的ListSimi算法。实验证明,在OHSUMED和TD2003数据集上ListSimi算法能够显著的提升现有排序学习算法的准确度,尤其是对排序位置靠前的文档,准确度提升非常明显。对于一个商业搜索引擎,搜索结果列表中靠前的文档检索准确度直接影响着用户的搜索体验与满意程度,这说明本文具有相当重要的研究意义与实践价值。
【关键词】:信息检索 排序学习 主题模型 文本相似度
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;TP181
【目录】:
  • 摘要6-7
  • ABSTRACT7-10
  • 第一章 绪论10-15
  • 1.1 研究背景10
  • 1.2 国内外相关研究发展现状10-13
  • 1.2.1 信息检索模型发展概况11-12
  • 1.2.2 排序学习研究现状12-13
  • 1.3 本文主要工作与组织13-15
  • 第二章 搜索排序相关方法15-30
  • 2.1 引言15
  • 2.2 基于链接的排序方法15-21
  • 2.2.1 PageRank算法15-18
  • 2.2.2 HITS算法18-21
  • 2.3 排序学习方法概述21-29
  • 2.3.1 Pointwise相关方法24-25
  • 2.3.2 Pairwise相关方法25-27
  • 2.3.3 Listwise相关方法27-29
  • 2.4 本章小结29-30
  • 第三章 基于VSM和LDA的相似度算法30-38
  • 3.1 引言30
  • 3.2 基于VSM的相似度计算30-31
  • 3.3 基于LDA的相似度计算31-35
  • 3.3.1 LDA模型描述31-34
  • 3.3.2 基于LDA模型的文档相似度算法34-35
  • 3.4 基于主题相似度的相似度计算35-37
  • 3.4.1 评估标准36
  • 3.4.2 实验设置36
  • 3.4.3 对比分析36-37
  • 3.5 本章小结37-38
  • 第四章 基于主题相似的排序学习算法38-55
  • 4.1 引言38
  • 4.2 LISTSIMI排序学习算法描述38-42
  • 4.2.1 Top-k概率模型38-40
  • 4.2.2 损失函数构造40-41
  • 4.2.3 梯度下隆算法41-42
  • 4.3 算法实现42-43
  • 4.4 实验数据集43-44
  • 4.4.1 LETOR 3.0数据集43-44
  • 4.5 排序学习评价标准44-46
  • 4.5.1 平均准确率MAP45
  • 4.5.2 归一化折扣累积增益NDCG45-46
  • 4.6 实验方法46-47
  • 4.7 实验结果与对比分析47-54
  • 4.7.1 实验结果47-53
  • 4.7.2 对比分析53-54
  • 4.8 本章小结54-55
  • 第五章 结论与展望55-57
  • 5.1 结论55-56
  • 5.2 展望56-57
  • 参考文献57-60
  • 致谢60-61
  • 附录61-62

【参考文献】

中国期刊全文数据库 前1条

1 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期


  本文关键词:基于主题相似度的排序学习算法研究,,由笔耕文化传播整理发布。



本文编号:367519

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/367519.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98646***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com