当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于模板匹配的查询分类研究

发布时间:2022-09-28 13:08
  互联网迅猛发展引起的信息剧增使得互联网用户在检索信息时需要凭借媒介才能快速、高效、准确的查找到需要的信息,而搜索引擎作为连接用户和互联网的桥梁,使用率是最高的,用户对搜索引擎的依赖也促使其成为一个重要的人机交互渠道。在高使用率的情况下,越来越多的用户希望能得到良好的用户体验支持:快速、准确地召回结果,图形化的交互界面,智能完善查询语句。近几年,新事物的不断兴起使得搜索引擎用户的搜索需求日益多样化、个性化、精细化,满足这种多样精细的需求是搜索引擎的本质功能,也是识别用户真实查找意图的关键步骤。对用户检索意图的识别主要作用在两方面,一是提取特征,二是对用户查询进行分类。传统的用户查询分类方式是预先构建好类别体系,但这种方法不具备灵活性、可扩展性比较差。面对上述问题,本文的方法在可扩展性方面做出了优化,本文的研究工作旨在识别用户在搜索引擎进行检索时的真实需求,通过分析用户输入的查询语句,识别用户意图并进行查询类别判断。本文使用的数据集是搜狗实验室和360搜索的日志文件,根据用户查询语句的细分类别和附加信息构建二分图,并使用随机游走算法挖掘具体类别的实体词典和模板词典。然后本文基于Hash表加... 

【文章页数】:50 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 本文主要工作
第二章 国内外研究现状
    2.1 用户查询意图分类
        2.1.1 构建分类体系相关研究
        2.1.2 提取分类特征相关研究
    2.2 用户查询的主题分类
        2.2.1 丰富用户查询的方法
        2.2.2 半监督学习的方法
    2.3 用户查询附加信息的挖掘
第三章 基于二分图上随机游走模型的词典挖掘
    3.1 用户搜索日志中词典挖掘描述
    3.2 用户搜索日志中词典挖掘的整体设计
    3.3 实体词典的挖掘
        3.3.1 构建挖掘实体词典的二分图
        3.3.2 基于二分图上随机游走挖掘实体词典
    3.4 模板词典的挖掘
第四章 用户查询的类目识别算法设计
    4.1 设计思路描述
    4.2 基于hash和数组的Trie树结构
    4.3 用户查询类目识别算法设计
        4.3.1 Trie树的构建
        4.3.2 Trie树的查找匹配
    4.4 时间复杂度分析
第五章 实验及评价
    5.1 实验数据
    5.2 词典库的建立
        5.2.1 实体词典的挖掘
        5.2.2 模板词典的挖掘
    5.3 用户查询类别识别
    5.4 实验结果评估与分析
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢


【参考文献】:
期刊论文
[1]查询日志中查询意图的自动识别[J]. 李煜,吕学强,李卓,徐丽萍.  计算机应用与软件. 2015(11)
[2]查询意图研究综述[J]. 陆伟,周红霞,张晓娟.  中国图书馆学报. 2013(01)
[3]基于用户相似度计算的导航类意图分类研究[J]. 任豪栋,贾年.  西华大学学报(自然科学版). 2011(03)
[4]基于搜索引擎优化技术与模板引擎技术的网站优化策略[J]. 蒋继娅,刘彤,刘宇.  情报理论与实践. 2010(05)
[5]Web检索查询意图分类技术综述[J]. 张森,王斌.  中文信息学报. 2008(04)
[6]对于搜索引擎优化(SEO)的研究[J]. 马晓玲,吴永和.  情报杂志. 2005(12)
[7]查询意图分类技术综述[J]. 张森,王斌,张磊.  数字图书馆论坛. 2008 (07)

博士论文
[1]基于主题的查询意图识别研究[D]. 宋巍.哈尔滨工业大学 2013
[2]搜索引擎中命名实体查询处理相关技术研究[D]. 伍大勇.哈尔滨工业大学 2012



本文编号:3681718

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3681718.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户509ec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com