当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向语义搜索的查询前置技术研究与实现

发布时间:2017-07-07 14:06

  本文关键词:面向语义搜索的查询前置技术研究与实现


  更多相关文章: 信息检索 查询扩展 面向语义搜索 查询语言 本体 语义相关度 日志分析


【摘要】:互联网已经成为信息的主要载体,其规模还在飞速地增长。面对海量的互联网信息,为了有效地从中查找到所需的信息,搜索引擎已经成为人们检索信息的首选工具。目前,大多数商业搜索引擎都是基于关键词匹配技术,随着技术的发展,虽然返回的搜索结果质量比过去也提升了不少,但是依旧存在几个关键问题:1)用户搜索到的信息并非如其所愿,因此用户通常需要找到最合适的关键词来描述搜索意图,但是这并不容易;2)关键词匹配技术不支持语义理解,这个缺点在歧义词和同义词上显得尤为明显,相同的词可能表达不同的语义,而不同的词也可能表达相同的语义;3)通过对搜索日志的分析发现,用户使用的查询语句太短,导致搜索引擎难以理解用户的搜索意图。近年来,已有很多研究着手解决这些问题,从搜索流程的角度,可以把这些研究分成三类:查询前置处理,例如查询扩展、查询重构等研究;查询中的处理,例如优化检索模型、建立概念索引等研究;查询后置处理,例如搜索结果重排序等研究。但是,这些研究零散,缺乏整体性解决方案,效果也有待进一步提高。对此,作者通过分析搜索引擎现存的问题,从改进和扩展查询语言与接口入手,将面向词汇的搜索,扩展为面向概念的语义搜索,从查询前置处理角度优化搜索引擎,从而改进网络搜索的效果与质量。作者具体的工作和成果包括:设计了面向语义的查询语言,用于支持用户和搜索引擎在语义层面的交互。查询语言的核心是对歧义词进行概念绑定,消除其歧义性。在概念绑定的基础上,设计了三种语义查询:概念查询、关系查询和类比查询。面向语义的查询语言可以帮助用户表达搜索意图,也利于搜索引擎理解用户意图。提出了基于本体的概念映射算法,用于理解概念绑定后的歧义词在当前查询中的语义,这是查询前置处理的第一步。该算法先通过本体的术语表获取歧义词对应的候选概念集合,然后通过本体计算概念间的语义相关度,并构造了基于相关度的评价函数f,候选集中使f求得最大值的概念就是最终映射的概念。通过本文设计的实验证明,该算法有很高的准确率。提出了基于本体和查询日志的查询扩展,在概念映射之后,对查询语句做进一步扩展,这是查询前置处理的第二步。首先利用本体构造候选概念集,然后通过查询会话中查询的相关性,对候选概念计算得分,最后按照得分降序排序,选择排名前N的概念作为扩展概念。通过对比实验证明,本文的查询扩展方法对搜索的查准率有了很大的改进。
【关键词】:信息检索 查询扩展 面向语义搜索 查询语言 本体 语义相关度 日志分析
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要6-8
  • ABSTRACT8-12
  • 第一章 绪论12-17
  • 1.1 研究背景和意义12-13
  • 1.2 本文的关键问题13-14
  • 1.3 本文的主要工作14-15
  • 1.4 本文的组织结构15-17
  • 第二章 相关研究工作17-28
  • 2.1 信息检索17-18
  • 2.2 本体18-20
  • 2.3 查询日志20-22
  • 2.4 查询扩展综述22-27
  • 2.4.1 查询扩展流程22-24
  • 2.4.2 查询扩展方法24-26
  • 2.4.3 关键问题和发展方向26-27
  • 2.5 本章小结27-28
  • 第三章 面向语义的查询语言和智能查询28-44
  • 3.1 现有的查询语言29-30
  • 3.2 面向语义的查询语言设计30-32
  • 3.3 基于本体的概念映射算法32-36
  • 3.4 语法分析与智能查询流程36-41
  • 3.5 实验分析41-43
  • 3.6 本章小结43-44
  • 第四章 基于本体和查询日志的查询扩展44-54
  • 4.1 用户搜索行为模型44-45
  • 4.2 查询日志设计与预处理45-46
  • 4.3 基于本体和查询日志的查询扩展算法46-50
  • 4.3.1 基于本体的候选概念集构建47-48
  • 4.3.2 基于查询日志的概念选择48-49
  • 4.3.3 查询扩展算法描述49-50
  • 4.4 实验分析50-53
  • 4.4.1 实验平台和数据50-51
  • 4.4.2 实验方法51
  • 4.4.3 实验结果分析51-53
  • 4.5 本章小结53-54
  • 第五章 查询前置处理在智能搜索引擎中的应用54-60
  • 5.1 智能搜索引擎系统架构54-55
  • 5.2 模块功能55-58
  • 5.2.1 基础环境模块55
  • 5.2.2 知识库模块55
  • 5.2.3 元搜索引擎和排名整合模块55-56
  • 5.2.4 摘要模块56
  • 5.2.5 日志模块56
  • 5.2.6 查询扩展模块56-57
  • 5.2.7 关系挖掘模块57
  • 5.2.8 语法处理模块57-58
  • 5.3 实际应用效果58-59
  • 5.4 本章小结59-60
  • 第六章 总结和展望60-61
  • 6.1 全文工作总结60
  • 6.2 未来工作展望60-61
  • 参考文献61-64
  • 附录一 作者攻读硕士学位期间发表的学术论文64-65
  • 附录二 作者攻读硕士学位期间参与的科研项目65-66
  • 后记6

【相似文献】

中国期刊全文数据库 前10条

1 文坤梅;卢正鼎;孙小林;李瑞轩;;语义搜索研究综述[J];计算机科学;2008年05期

2 王勇;;触摸语义搜索的脉搏[J];软件世界;2009年10期

3 苏明明;宋文;;基于本体的语义搜索引擎解决方案研究新进展[J];现代图书情报技术;2008年11期

4 孙静宇;余雪丽;李鲜花;;面向语义搜索的推荐模型研究[J];广西师范大学学报(自然科学版);2008年03期

5 刘幺和;李巧云;;基于语义搜索的语音交互系统模型研究[J];计算机应用;2009年07期

6 陈响亮;李怀松;梁意文;;基于语义搜索的实名呼叫系统设计[J];计算机与现代化;2011年09期

7 杨克特;陈华钧;;面向特定领域的语义搜索结果排序算法[J];计算机应用与软件;2011年12期

8 马雷雷;梁汝鹏;连世伟;陈虎;;一种主题本体驱动的语义搜索方法[J];地理空间信息;2013年04期

9 于彤;陈华钧;李敬华;;面向中药新药研发的语义搜索系统[J];中国医学创新;2013年33期

10 汪志群;;基于云计算的语义搜索引擎探究[J];电子测试;2014年08期

中国重要报纸全文数据库 前7条

1 本报记者 张志乾 实习生 张利冰;中华英才网举办创新技术体验日活动 筹划全平台升级[N];中国贸易报;2012年

2 高爽;语义搜索正从概念转向应用[N];人民邮电;2014年

3 CUBN记者 邓丽娟;大数据时代亟需技术革新[N];中国联合商报;2012年

4 行云;骆捚和他的技术“三剑客”[N];中华工商时报;2012年

5 苗得雨;语义搜索PK关键词搜索[N];电脑报;2008年

6 本报记者 郭平;EMC应对IT五项刚性需求[N];计算机世界;2008年

7 本报记者 王星;应用搜索进化论[N];电脑报;2013年

中国博士学位论文全文数据库 前4条

1 文坤梅;基于本体知识库推理的语义搜索研究[D];华中科技大学;2007年

2 朱海平;基于概念图匹配的语义搜索[D];上海交通大学;2006年

3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年

4 陈毅波;基于关联数据和用户本体的个性化知识服务关键技术研究[D];武汉大学;2012年

中国硕士学位论文全文数据库 前10条

1 高杰旺;基于三维分类模型语义搜索的设计与实现[D];电子科技大学;2011年

2 兰,

本文编号:530478


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/530478.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户692ae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com