当前位置:主页 > 科技论文 > 搜索引擎论文 >

短文本分类在搜索引擎中的研究与应用

发布时间:2017-07-06 05:07

  本文关键词:短文本分类在搜索引擎中的研究与应用


  更多相关文章: 短文本分类 搜索引擎 特征加权 TF-IDF 伪相关反馈


【摘要】:随着互联网的高速发展,信息量越来越丰富,人们获取所需要的信息也越来越困难。搜索引擎作为帮助人们获取信息的平台,已经成为互联网中一个很重要的元素。针对用户的搜索词,可以挖掘出一些潜在的用户意图,其中根据搜索词的分类可以得知用户想搜索到哪个领域的结果,针对用户意图及这个领域的特点可以给用户推荐满足用户需求的Web应用,来优化搜索结果。本文针对搜索词进行分类进行研究,分析了搜索词这样的短文本的特点,以及在分类时的难点。由于搜索词包含的信息量太少且表达不规范,用传统的精确匹配、N-Gram匹配、语义词典扩展等方法进行分类都所有局限性。本文提出了一个三阶段的短文本分类的解决方案来解决搜索词分类问题:基于伪相关反馈的短文本预处理阶段、短文本训练阶段、短文本分类阶段。将伪相关反馈技术运用到短文本扩展中,并使用排名因素计算特征权重和投票选择分类来实现算法,最终将短文本分类的问题转化为成熟的长文本分类问题,并通过实验对比不同短文本扩展方法在搜索词语料库中的分类效果。在问题解决的过程中,对特征加权做了深入研究,以往的TF-IDF方法没有考虑到类别信息,本文结合了类内集中度、类间分散度改进了TF-IDF特征加权方法,并通过实验去验证了方法的可用性。本文将短文本分类技术运用到搜索引擎中,设计了该系统的整体架构、短文本分类模块、Web应用系统架构。详细设计并实现了短文本分类模块中的各个过程,并运用了反馈学习分类算法来优化分类模型。
【关键词】:短文本分类 搜索引擎 特征加权 TF-IDF 伪相关反馈
【学位授予单位】:东北师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 绪论8-13
  • 1.1 研究背景8-9
  • 1.2 国内外研究现状9-10
  • 1.2.1 国外研究现状9-10
  • 1.2.2 国内研究现状10
  • 1.3 研究目标与方法10-11
  • 1.4 研究内容与意义11
  • 1.5 论文的组织结构11-13
  • 第二章 理论与技术基础13-23
  • 2.1 搜索引擎13-14
  • 2.2 文本分类技术14-20
  • 2.2.1 文本分类相关概念14
  • 2.2.2 文本分类过程14-15
  • 2.2.3 文本预处理15-16
  • 2.2.4 特征选择16-17
  • 2.2.5 特征加权17-19
  • 2.2.6 分类算法19-20
  • 2.3 短文本分类技术20-23
  • 2.3.1 短文本特点20-21
  • 2.3.2 短文本分类难点21
  • 2.3.3 短文本扩展方法21-23
  • 第三章 基于伪相关反馈的短文本扩展方法23-34
  • 3.1 伪相关反馈技术23
  • 3.2 基于伪相关反馈的扩展方法23-26
  • 3.2.1 问题描述23-25
  • 3.2.2 结合排名因素计算特征权重25
  • 3.2.3 投票选择分类过程25-26
  • 3.3 搜索引擎中短文本扩展方法比较26-27
  • 3.4 实验与结果分析27-34
  • 3.4.1 实验环境27
  • 3.4.2 实验数据集27-28
  • 3.4.3 实验评估方法28
  • 3.4.4 实验评价指标28-29
  • 3.4.5 实验步骤29-30
  • 3.4.6 实验结果与分析30-34
  • 第四章 基于分散度、集中度的文本特征加权算法34-40
  • 4.1 TF IDF算法存在的缺陷34-35
  • 4.2 基于分散度、集中度的改进TF IDF特征加权算法35-37
  • 4.3 实验与结果分析37-40
  • 4.3.1 实验步骤37
  • 4.3.2 实验结果与分析37-40
  • 第五章 短文本分类在搜索引擎中的应用40-51
  • 5.1 概述40
  • 5.2 系统架构设计40-42
  • 5.2.1 系统整体架构设计40-41
  • 5.2.2 Web应用系统架构设计41-42
  • 5.3 短文本分类模块设计与实现42-51
  • 5.3.1 三阶段搜索词分类解决方案42-44
  • 5.3.2 黑白名单配置44
  • 5.3.3 文本预处理44-46
  • 5.3.4 特征选择与特征加权46-48
  • 5.3.5 构建分类器48
  • 5.3.6 反馈学习48-51
  • 第六章 总结和展望51-53
  • 6.1 工作总结51-52
  • 6.2 展望52-53
  • 参考文献53-55
  • 致谢55

【参考文献】

中国期刊全文数据库 前3条

1 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期

2 王傲胜;冯巧娟;;关联规则分类及其相关研究[J];内江科技;2008年07期

3 王蒙;林兰芬;王锋;;基于伪相关反馈的短文本扩展与分类[J];浙江大学学报(工学版);2014年10期

中国博士学位论文全文数据库 前1条

1 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年

中国硕士学位论文全文数据库 前6条

1 刘丛山;基于Hadoop的文本分类研究[D];上海交通大学;2012年

2 吴薇;大规模短文本的分类过滤方法研究[D];北京邮电大学;2007年

3 张鹏招;基于X~2统计的中文文本分类特征选择方法研究[D];重庆大学;2008年

4 初冲;适用于手机取证的中文短文本分类方法研究与实现[D];北京化工大学;2012年

5 范云杰;基于维基百科的中文短文本分类研究[D];西安电子科技大学;2013年

6 熊大康;中文短文本分类技术的研究与实现[D];安徽大学;2014年



本文编号:524806

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/524806.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7946e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com