当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于查询日志的用户查询意图检测

发布时间:2017-08-25 13:08

  本文关键词:基于查询日志的用户查询意图检测


  更多相关文章: 用户查询 查询扩展 意图检测


【摘要】:搜索引擎已经成为人们在网络上获取信息不可或缺的工具。随着社会的发展和科技的更迭,搜索引擎返回的结果由刚开始的简单字符匹配发展到现在的语义的相关。用户查询是搜索引擎接收到的来自用户的最重要的信息,通过对用户查询的意图识别,搜索引擎就能够在用户输入较少的查询关键词的情况下,返回对于用户来说最相关的结果,从而提升搜索引擎的用户体验。本文以CIKM 2014 Query Intent Detection比赛为依托,详细地介绍了目前用户查询意图检测的意义和挑战,并且通过对用户搜索日志记录的挖掘来解决用户查询较短、缺乏足够的语义信息的问题。由于比赛使用的数据集经过编码,导致常用的分词算法无法直接使用,本文采用基于k-gram和end-gram的方法提取词项并使用信息增益等方法进行了特征选择,最终构建词袋模型。然后,通过计算用户查询对应的文档中每个词项的TFIDF权重构成该文档的特征向量。最后,使用线性的支持向量机作为分类的模型。由于本次比赛共包含7个分类,并且用户查询有可能同时属于两个类别,本文使用One-Vs-Rest的策略训练7个二分的分类器,通过得到的概率值来预测其类别,从而解决多分类多标记的问题。本文通过实验对比了各个步骤中参数的影响,并采用五折交叉验证的方法调整了支持向量机中的各个参数。本文介绍的方法简单、有效、实用,从特征提取到模型训练,到最终类别的预测的周期很短。在近530只参赛队伍中,最终以F1值0.9181的成绩排名第六。
【关键词】:用户查询 查询扩展 意图检测
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第一章 绪论8-12
  • 1.1 研究背景8-9
  • 1.2 研究目的及意义9-10
  • 1.3 研究内容10-11
  • 1.4 论文结构安排11-12
  • 第二章 相关理论及研究12-19
  • 2.1 通用搜索和垂直搜索12
  • 2.2 国内外研究现状12-13
  • 2.3 分词算法13-15
  • 2.3.1 基于词典的最大匹配算法14-15
  • 2.3.2 基于机器学习序列模型的方法15
  • 2.4 词袋模型和向量空间模型15-17
  • 2.6.1 词项频率和逆文档频率15-16
  • 2.6.2 TFIDF权重的其它计算方法16-17
  • 2.5 特征选择的方法17-19
  • 2.5.1 基于频率的特征选择方法17-18
  • 2.5.2 基于卡方检验的特征选择方法18
  • 2.5.3 多分类问题的特征选择方法18-19
  • 第三章 特征工程19-31
  • 3.1 问题定义19-20
  • 3.2 整体流程20-22
  • 3.3 数据预处理22-23
  • 3.4 特征提取23-31
  • 3.4.1 查询扩展23-26
  • 3.4.2 词袋建立26-31
  • 第四章 模型训练31-39
  • 4.1 分类算法31-37
  • 4.1.1 朴素贝叶斯31-32
  • 4.1.2 逻辑回归32-33
  • 4.1.3 支持向量机33-37
  • 4.2 其他尝试37-39
  • 第五章 实验结果分析39-47
  • 5.1 数据集的介绍39-41
  • 5.2 评测方式41-42
  • 5.3 实验环境42
  • 5.4 结果分析42-45
  • 5.5 最终结果45-47
  • 第六章 总结与展望47-51
  • 6.1 特征工程47-50
  • 6.1.1 查询扩展48
  • 6.1.2 其它词语的提取48-49
  • 6.1.3 搜索行为特征49-50
  • 6.2 模型训练50-51
  • 6.2.1 多标记问题50
  • 6.2.2 模型融合50-51
  • 参考文献51-53
  • 发表论文和参加科研情况说明53-54
  • 致谢54-55

【参考文献】

中国期刊全文数据库 前5条

1 江雪;孙乐;;用户查询意图切分的研究[J];计算机学报;2013年03期

2 张晓娟;陆伟;;利用查询重构识别查询意图[J];现代图书情报技术;2013年01期

3 伍大勇;赵世奇;刘挺;张宇;;融合多类特征的Web查询意图识别[J];模式识别与人工智能;2012年03期

4 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期

5 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期

中国博士学位论文全文数据库 前1条

1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年



本文编号:736911

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/736911.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户afffb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com