当前位置:主页 > 科技论文 > 搜索引擎论文 >

专业搜索引擎的无日志查询推荐机制研究及实现

发布时间:2017-06-27 11:16

  本文关键词:专业搜索引擎的无日志查询推荐机制研究及实现,由笔耕文化传播整理发布。


【摘要】:搜索引擎的查询推荐为用户更好地使用搜索引擎提供了很大的便利,目前商用搜索引擎大部分采用基于日志的查询推荐方法,为用户推荐热门查询词及相关查询。专业搜索引擎例如论文搜索引擎、校园网搜索引擎和论坛搜索引擎等通常应用于特定领域,由于使用人数相对较少,用户日志缺乏或不足,因此用传统的基于日志分析的查询推荐方法效果不够好,而且传统的查询推荐方法也无法体现专业搜索引擎的主题专业性,因此本文主要研究适用于专业搜索引擎的查询推荐方法,以弥补以上缺点。 本文的研究工作主要有如下三个方面: (1)输入查询词推荐:本文提出了两种输入查询词的推荐方法,第一种方法利用贝叶斯公式建立模型,通过计算输入查询词的概率关系为用户推荐输入查询词;第二种方法利用主题模型,使用LDA(Latent DirichletAllocation)算法对本地语料库进行预处理,对输入查询词使用主题向量计算词相似度,将不同主题的推荐词反馈给用户。实验结果表明这两种方法在推荐成功率等指标上都优于传统的输入查询词推荐算法;而且基于主题模型的推荐算法比传统的向量模型算法具有较高的多样性指标,在专业性内容推荐上具有更好的推荐效果。 (2)相关查询推荐:本文提出了一个改进的模块度算法,该算法利用伪相关反馈对用户初步查询的结果使用模块度算法进行社团挖掘,识别出模糊查询所隶属于的不同语义社团,最终将模糊查询的不同语义相关查询推荐给用户。实验表明在纯度值、推荐成功率等指标上,模块度算法比其他算法具有一定的优势。 (3)推荐系统的设计与实现:本文设计并开发了一个查询推荐系统,该系统划分为表示层、接入层、模型层、数据层。整个系统分层次的设计方便了系统的维护以及功能扩展。 本文设计开发的查询推荐系统已应用到教育网的分布式搜索引擎SE6中,该搜索引擎面向中国教育科研网络,提供教育科研等相关领域的检索服务,应用效果表明本推荐系统生成的查询推荐词,,支持查询的多样性和主题性推,用户交互性强,效率也较高。
【关键词】:查询推荐 相关查询 基于非日志 搜索引擎
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 绪论9-14
  • 1.1 研究背景与意义9-10
  • 1.2 国内外研究现状10-12
  • 1.3 主要研究工作12-13
  • 1.4 论文组织结构13-14
  • 第二章 相关理论和技术14-28
  • 2.1 搜索引擎概述14-17
  • 2.1.1 倒排索引15-16
  • 2.1.2 向量模型16-17
  • 2.2 搜索引擎的查询推荐17-21
  • 2.2.1 基于日志的查询推荐17-19
  • 2.2.2 非日志查询推荐19-20
  • 2.2.3 差异化查询推荐20-21
  • 2.2.4 性能评价21
  • 2.3 社团发现及聚类21-24
  • 2.3.1 小世界网络模型及词关系网络22-23
  • 2.3.2 划分算法23-24
  • 2.3.3 模块度算法24
  • 2.4 主题模型24-27
  • 2.4.1 主题模型的输入25
  • 2.4.2 主题模型中的基本假设25-26
  • 2.4.3 主题模型的表示26
  • 2.4.4 参数估计过程26-27
  • 2.4.5 新样本的推断27
  • 2.5 本章小结27-28
  • 第三章 输入查询词推荐28-47
  • 3.1 基于贝叶斯的查询推荐28-32
  • 3.1.1 定义查询词概率28-29
  • 3.1.2 概率估算29-30
  • 3.1.3 算法设计30-32
  • 3.2 基于主题模型的查询推荐32-36
  • 3.2.1 基于 LDA 的模型表示32-34
  • 3.2.2 主题模型推荐算法34-36
  • 3.3 实验分析36-45
  • 3.3.1 数据集36
  • 3.3.2 测试文本用例36-38
  • 3.3.3 贝叶斯查询推荐比较实验38-41
  • 3.3.4 主题模型查询推荐比较实验41-45
  • 3.4 本章小结45-47
  • 第四章 相关查询推荐47-58
  • 4.1 数据预处理47-48
  • 4.2 社团结构发现48-53
  • 4.2.1 模块度算法48-51
  • 4.2.2 划分算法51-53
  • 4.3 实验分析53-57
  • 4.3.1 数据集及测试用例53
  • 4.3.2 评价标准53-54
  • 4.3.3 结果分析54-57
  • 4.4 本章小结57-58
  • 第五章 查询推荐系统的设计与实现58-67
  • 5.1 设计目标58
  • 5.2 功能架构设计58-60
  • 5.3 模块详细设计60-66
  • 5.3.1 表示层模块设计60-62
  • 5.3.2 接入层模块设计62-63
  • 5.3.3 模型层模块设计63-65
  • 5.3.4 数据层模块设计65-66
  • 5.4 系统展示66
  • 5.5 本章小结66-67
  • 结论和展望67-69
  • 参考文献69-74
  • 攻读硕士学位期间取得的研究成果74-75
  • 致谢75-76
  • 附件76

【参考文献】

中国期刊全文数据库 前4条

1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

2 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

3 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期

4 刘知远;孙茂松;;汉语词同现网络的小世界效应和无标度特性[J];中文信息学报;2007年06期


  本文关键词:专业搜索引擎的无日志查询推荐机制研究及实现,由笔耕文化传播整理发布。



本文编号:489595

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/489595.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0a394***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com