短文本分类技术研究

发布时间:2017-05-05 21:01

  本文关键词:短文本分类技术研究,,由笔耕文化传播整理发布。


【摘要】:随着互联网的发展,社交网络也逐渐成为人们交流和获取信息的重要渠道。其中,国外最具有代表性的社交网络是Facebook和Twitter,而国内最具代表性的则是新浪微博和腾讯微博等。由于这些数据大多数是以文本形式来存在的,且通常都会有字数限制,因此有关短文本的研究势在必行,而如何通过相关文本挖掘技术有效及时地获取其中的有用信息显得尤为重要。文本挖掘通常包括文本分类、文本聚类、文档摘要等。近年来,随着文本分类技术的广泛使用,它已成为一个热门的研究领域。本文首先对短文本的主要特点以及研究领域进行了概述,并对有关的短文本的研究现状和其中涉及到的关键技术进行了简明扼要的介绍。接着,针对短文本具有的数据量大、数据稀疏的特点,我们引入了LDA(Latent Dirichlet Allocation)主题模型和信息增益(Information gain, IG)特征选择算法来提高短文本分类的效率。传统的文本表示模型是向量空间模型(Vector Space Model,VSM),它通常是以词或短语为特征的,文档集被表示成文档一词汇矩阵。但是对于短文本来讲,同一个词出现在不同短文本的概率会远远小于长文本,这种数据的稀疏性,使得传统的长文本表示模型以及机器学习的方法无法直接应用到短文本上;其次,由于短文本的数据多,计算量大,因此需要通过特征降维来提高它的效率。LDA模型是一个三级分层贝叶斯无监督学习模型,它能够直接获取隐藏在文本中的语义信息,而不需要通过搜索引擎等外部文本来扩展短文本。从信息增益特征选择公式来看,它不仅前半部分考虑了特征出现的情况,同时后半部分也考虑了特征不出现的情况,因而在去除“无用词”时效果显著。针对以上问题和基于LDA模型和信息增益的特点,本文的第3部分采用信息增益来进行特征降维,然后再用LDA进行主题建模,最后以主题作为特征,建立文本类模型。经过对比实验的micro_F1值显示,短文本的分类性能有了显著提升。传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。所以本文的第4部分主要针对改进后的信息增益算法结合LDA模型来进行文本分类。具体执行步骤为:首先是对类内类内特征进行降维处理,主要利用的是特征分布均匀度和特征关联树模型。然后,使用类间加权离散度对信息增益公式进行改进,进一步提高类间特征IG的精确度,获得更优的特征子集。最后,再结合LDA主题建模来进行文本分类。通过对比实验表明,短文本的分类性能有了更进一步的提升。
【关键词】:短文本分类 LDA 信息增益 特征选择 特征冗余
【学位授予单位】:辽宁师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 1 绪论9-14
  • 1.1 研究背景及意义9-11
  • 1.2 短文本分类的研究现状11-12
  • 1.3 论文的相关内容12-13
  • 1.4 论文的结构安排13-14
  • 2 短文本分类技术简介14-26
  • 2.1 基本概念14-15
  • 2.2 短文本的特点15
  • 2.3 文本分类相关技术15-21
  • 2.3.1 文本分类主要流程15-16
  • 2.3.2 文本分类算法16-19
  • 2.3.3 文本预处理19
  • 2.3.4 文本表示19-21
  • 2.3.5 特征降维21
  • 2.5 概率主题模型21-24
  • 2.5.1 一元混合模型(Mixture of unigrams)22-23
  • 2.5.2 LSI模型23-24
  • 2.5.3 pLSI模型24
  • 2.6 本章小结24-26
  • 3 基于信息增益和LDA的中文短文本分类26-35
  • 3.1 信息增益26-27
  • 3.2 LDA模型27-29
  • 3.2.1 LDA模型的基本概念27-28
  • 3.2.2 LDA算法描述28-29
  • 3.2.3 建模结果29
  • 3.3 实验结果和分析29-35
  • 3.3.1 实验语料29-30
  • 3.3.2 实验过程与说明30-32
  • 3.3.3 评价指标32-33
  • 3.3.4 实验结果及分析33-34
  • 3.3.5 小结34-35
  • 4 基于改进信息增益和LDA的中文短文本分类35-43
  • 4.1 信息增益的不足及相关定义35
  • 4.2 基于特征关联树模型剔除类内冗余特征35-39
  • 4.2.1 相关定义35-36
  • 4.2.2 改善类内特征分布不均36-37
  • 4.2.3 通过类内特征关联树模型清除冗余特征37-38
  • 4.2.4 基于类间加权离散度的信息增益公式改进38-39
  • 4.3 基本算法描述39-40
  • 4.4 实验结果及分析40-43
  • 4.4.1 实验语料40
  • 4.4.2 实验过程与说明40-41
  • 4.4.3 结果分析41-42
  • 4.4.4 小结42-43
  • 结论43-45
  • 参考文献45-49
  • 攻读硕士学位期间发表学术论文情况49-50
  • 致谢50

【相似文献】

中国期刊全文数据库 前10条

1 张浩;汪楠;;文本分类技术研究进展[J];科技信息(科学教研);2007年23期

2 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期

3 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期

4 杨丽华;戴齐;杨占华;;文本分类技术研究[J];微计算机信息;2006年15期

5 胡恬;王敬;;中文文本分类技术的研究[J];科技咨询导报;2006年09期

6 徐大伟;董渊;张素琴;;文本分类技术在海洋信息处理领域中的应用[J];计算机科学;2008年11期

7 曹锋;张代远;;文本分类技术研究[J];电脑知识与技术;2009年32期

8 胡文静;;文本分类技术进展[J];知识经济;2011年10期

9 牛洪波;丁华福;;基于文本分类技术的信息过滤方法的研究[J];信息技术;2007年12期

10 于丽;;文本分类技术在陶瓷行业中的应用[J];现代计算机(专业版);2010年14期

中国重要会议论文全文数据库 前1条

1 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年

中国博士学位论文全文数据库 前2条

1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年

2 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年

中国硕士学位论文全文数据库 前10条

1 张虹;短文本分类技术研究[D];辽宁师范大学;2015年

2 熊大康;中文短文本分类技术的研究与实现[D];安徽大学;2014年

3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年

4 牛洪波;基于文本分类技术的信息过滤方法的研究[D];哈尔滨理工大学;2008年

5 李斌;基于文本分类技术的英语作文自动评分研究[D];苏州大学;2009年

6 胡晓辉;基于团结构的文本分类技术研究[D];江西师范大学;2008年

7 王宪刚;文本分类技术及在辅助决策中的应用研究[D];哈尔滨工业大学;2008年

8 张超林;文本分类技术在数字图书馆中的应用与研究[D];首都师范大学;2007年

9 苏道;蒙文文本分类技术研究与系统设计实现[D];内蒙古大学;2007年

10 易路杰;网络文本分类技术研究[D];北方工业大学;2012年


  本文关键词:短文本分类技术研究,由笔耕文化传播整理发布。



本文编号:347048

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/347048.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户64a2d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com