短文本信息流的会话抽取与分析技术研究

发布时间:2017-04-24 10:11

  本文关键词:短文本信息流的会话抽取与分析技术研究,由笔耕文化传播整理发布。


【摘要】:随着互联网迅猛发展,即时通信、论坛和微博等满足网民沟通交流需求的网络应用迅速兴起,为网民之间的信息共享、知识传播提供了便利的途径。在这些网络应用中,存在大量的短文本信息流(Short Text Message Stream),这些数据大多是网民对社会生活的描述和评论,包含着网民对所谈论话题的情感倾向,以及与网民身份信息相关的内容。因此,有效地对短文本信息流进行处理,对其中包含的情感倾向和用户信息进行分析,能够辅助有关部门了解舆情动向,实施舆情引导。本文研究了短文本信息流的会话抽取和分析技术,主要包括短文本聚类、短文本信息流的会话抽取、会话的情感倾向性分析以及短文本信息流中的用户建模四个部分。论文的主要研究成果如下:(1)网络媒体中的短文本存在特征稀疏、用语不规范的特点,导致传统的聚类方法效果不够理想。针对这个问题,本文提出了一种改进的短文本层次聚类算法。首先,定义特征权重计算方法,计算类簇中词语的权重,得到类簇的关键词;然后,使用词向量计算关键词之间的语义相似度进而得到类簇的相似度;最后,基于改进的短文本层次聚类算法实现聚类。在4个不同类型的短文本数据集上进行实验,该方法的宏平均结果分别达到了63.8%、72.3%、61.5%和84.7%,较传统方法有了明显提高,表明了该方法的有效性。(2)短文本信息流的会话抽取中,传统方法计算内容相关度时受到特征稀疏的影响。针对这个问题,本文提出了一种“先分割再聚类”的会话抽取算法。首先,根据信息内容、时间间隔和用户关系对短文本信息流进行会话分割得到会话片段;然后,对Single-Pass聚类算法进行改进并用于会话片段的聚类,实现会话抽取。在3个数据集上进行实验的结果表明,该方法能够有效提高会话抽取的性能。(3)会话中单条信息长度较短,常常不具有完整的句法结构,导致传统的情感倾向性分析方法效果较差。针对这个问题,本文提出了一种无监督的会话情感倾向性分析方法。首先,利用词向量和情感词典计算词语的情感倾向;然后,对会话中的单条信息进行情感倾向性分析;最后,对用户在会话中所发表的信息的情感倾向进行统计得到用户对会话话题的情感倾向。在不同话题的会话上进行实验,以平均F值作为评价指标,平均性能为83.3%,最优结果达到了97.6%,说明所提出的方法能够有效地对会话进行情感倾向性分析。(4)借鉴词向量的训练原理,并结合短文本信息流中数据的特点,本文提出了一种短文本信息流中的用户建模方法。首先,将用户在所有会话中发表的内容进行合并得到用户数据;然后,将其分割为固定长度的词链,在分割处添加用户标识构造上下文关系,并结合外部数据构成训练数据;最后,使用Skip-gram模型进行训练,将得到的用户向量作为用户建模的结果。基于用户向量进行用户关键词提取和用户聚类的实验结果均优于传统方法,说明所提出的用户建模方法是合理和有效的。
【关键词】:短文本聚类 词向量 短文本信息流 会话抽取 情感倾向性分析 用户建模
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-12
  • 第一章 绪论12-24
  • 1.1 课题背景及研究意义12-14
  • 1.1.1 课题背景12-14
  • 1.1.2 研究意义14
  • 1.2 相关研究现状14-20
  • 1.2.1 短文本聚类现状15-16
  • 1.2.2 短文本信息流的会话抽取现状16-18
  • 1.2.3 会话情感倾向性分析现状18-19
  • 1.2.4 短文本信息流中的用户建模现状19-20
  • 1.3 目前研究的问题和难点20-21
  • 1.4 论文的工作和组织21-24
  • 1.4.1 论文的主要工作21-22
  • 1.4.2 论文的组织结构22-24
  • 第二章 短文本聚类24-34
  • 2.1 词向量24-27
  • 2.1.1 词向量原理24-26
  • 2.1.2 词向量的性质26
  • 2.1.3 词向量在短文本聚类中的应用26-27
  • 2.2 改进的短文本层次聚类算法27-29
  • 2.2.1 层次聚类算法介绍27
  • 2.2.2 特征权重计算和关键词提取27-28
  • 2.2.3 类簇相似度计算28-29
  • 2.2.4 改进的短文本层次聚类算法流程29
  • 2.3 实验结果与性能分析29-33
  • 2.3.1 实验数据29-31
  • 2.3.2 评价指标31
  • 2.3.3 实验设置与结果分析31-33
  • 2.4 本章小结33-34
  • 第三章 短文本信息流的会话抽取34-48
  • 3.1 会话抽取方法简介34-36
  • 3.1.1 会话抽取的问题描述34-35
  • 3.1.2 Single-Pass聚类算法介绍35
  • 3.1.3 基于Single-Pass聚类算法的会话抽取方法35-36
  • 3.2 会话分割36-40
  • 3.2.1 信息的内容相关度37
  • 3.2.2 信息的时间间隔37-39
  • 3.2.3 用户亲密程度39-40
  • 3.3 会话片段聚类40-42
  • 3.3.1 内容相关度计算40-41
  • 3.3.2 时间相关度计算41
  • 3.3.3 会话抽取算法实现41-42
  • 3.4 实验结果与性能分析42-46
  • 3.4.1 实验数据42-43
  • 3.4.2 评价指标43
  • 3.4.3 实验结果与分析43-46
  • 3.5 本章小结46-48
  • 第四章 会话的情感倾向性分析48-58
  • 4.1 会话的情感倾向性分析原理48
  • 4.2 会话的情感倾向性分析方法48-52
  • 4.2.1 会话的情感倾向性分析49
  • 4.2.2 单条信息的情感倾向性分析49-50
  • 4.2.3 词语的情感倾向识别50-52
  • 4.3 实验结果与性能分析52-56
  • 4.3.1 实验数据52
  • 4.3.2 评价指标52
  • 4.3.3 实验设置与结果分析52-56
  • 4.4 本章小结56-58
  • 第五章 短文本信息流中的用户建模58-68
  • 5.1 用户建模方法简介58-59
  • 5.1.1 基于向量空间模型的方法58-59
  • 5.1.2 基于主题模型的方法59
  • 5.2 短文本信息流中的用户建模方法59-63
  • 5.2.1 用户建模原理59-60
  • 5.2.2 构造训练数据60
  • 5.2.3 用户向量的性质60-61
  • 5.2.4 用户向量的应用61-63
  • 5.3 实验结果与性能分析63-66
  • 5.3.1 实验数据63-64
  • 5.3.2 实验设置与结果分析64-66
  • 5.4 本章小结66-68
  • 第六章 总结和展望68-70
  • 6.1 本文工作总结68
  • 6.2 下一步研究展望68-70
  • 致谢70-72
  • 参考文献72-78
  • 作者简历78

【参考文献】

中国期刊全文数据库 前10条

1 许琦;;基于向量空间模型的个性化信息过滤系统研究与开发[J];计算机与数字工程;2014年10期

2 陈仲帅;刘洋;禹晓辉;;英语情态句的情感倾向性分析[J];中文信息学报;2014年03期

3 史剑虹;陈兴蜀;王文贤;;基于隐主题分析的中文微博话题发现[J];计算机应用研究;2014年03期

4 刘金岭;王新功;周泓;;基于短信文本信息流的多热点事件挖掘[J];山东大学学报(工学版);2013年03期

5 田野;王文东;饶京海;王冠;郭亮;陈灿峰;马建;;短信息的会话检测及组织[J];软件学报;2012年10期

6 郭志刚;席耀一;李弼程;许旭阳;;论坛数据形式化表示技术研究[J];信息工程大学学报;2011年06期

7 白秋产;金春霞;;概念属性扩展的短文本聚类算法[J];长春师范学院学报;2011年10期

8 段瑞雪;王小捷;孙月萍;李文峰;;HDP主题模型的用户意图聚类[J];北京邮电大学学报;2011年S1期

9 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

10 黄九鸣;吴泉源;刘春阳;张旭;贾焰;周斌;;短文本信息流的无监督会话抽取技术[J];软件学报;2012年04期


  本文关键词:短文本信息流的会话抽取与分析技术研究,,由笔耕文化传播整理发布。



本文编号:323999

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/323999.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户57b69***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com