基于Word2vec的微博热点话题检测技术研究

发布时间:2023-12-13 19:50
  随着Web2.0的高速发展及移动设备的大量普及,微博客(Microblog,简称微博)逐渐成为人们相互交流,获取世界各地奇闻异事的重要途径。越来越多的网民通过微博将情感和对某事件的看法表达出来,这样就形成了不同于传统新闻媒体的网络舆情。从微博文本中挖掘有效信息、提取热点对及时发现网络舆情有深刻意义。因为微博文本具有字数少、上下文联系不紧密的特点,在文本建模过程中会面临严重的数据稀疏问题,从而影响话题检测准确度,所以对微博短文本的热点话题检测技术的研究非常有必要。本文围绕微博短文本的建模以及话题检测做了相关研究,主要工作如下。(1)获取微博短文本以及预处理。为获取更具话题性的微博,首先提出利用网络爬虫技术,爬取具有影响力的大V账号微博来获取数据,与通过官方平台提供的接口获取数据相比,网络爬虫更简便且能获取更多的数据;随后筛除内容少的微博文本以减少冗余;最后利用结巴分词对微博短文本分词,并进—步去除其中的停用词。(2)改进主题建模方法。针对微博短文本建立文本模型时面临的数据稀疏问题以及扩充外部语料难的问题,提出了将特征词输入Word2vec的Skip-gram模型以训练词向量,得到与特征词...

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文工作
第2章 微博热点话题检测理论研究
    2.1 词向量
    2.2 WORD2VEC工作原理
        2.2.1 连续词袋模型
        2.2.2 Skip-gram模型
    2.3 文本表示模型
        2.3.1 向量空间模型
        2.3.2 潜在语义分析模型
        2.3.3 概率潜在语义分析模型
        2.3.4 潜在狄利克雷分布模型
    2.4 文本聚类算法介绍
        2.4.1 基于划分的聚类算法
        2.4.2 基于层次的聚类算法
        2.4.3 基于密度的聚类算法
        2.4.4 基于网格的聚类算法
        2.4.5 基于模型的聚类算法
        2.4.6 基于模糊的聚类算法
    2.5 本章小结
第3章 微博热点话题检测系统的研究
    3.1 微博数据采集与预处理
        3.1.1 爬虫获取微博短文本数据
        3.1.2 去除噪声
        3.1.3 中文分词
        3.1.4 去除停用词
    3.2 基于WORD2VEC的LDA主题建模
    3.3 改进的SINGLE-PASS聚类算法
    3.4 凝聚式层次聚类再次聚类
    3.5 本章小结
第4章 基于WORD2VEC的LDA主题建模
    4.1 传统LDA主题建模
    4.2 基于WORD2VEC的LDA主题建模
        4.2.1 基于Word2vec的LDA主题模型算法原理
        4.2.2 基于Word2vec的LDA主题模型算法流程
        4.2.3 基于Word2vec的LDA主题模型参数的选取
    4.3 本章小结
第5章 基于LDA主题建模的微博热点话题检测
    5.1 相似度计算
    5.2 SINGLE-PASS增量聚类算法
    5.3 话题初步检测
    5.4 热点话题合并
    5.5 微博热点话题检测
    5.6 本章小结
第6章 实验结果分析
    6.1 微博数据采集
    6.2 中文分词
    6.3 去除停用词
    6.4 基于WORD2VEC的LDA主题建模
    6.5 话题检测实验结果与分析
    6.6 本章小结
第7章 总结与展望
    7.1 总结
    7.2 展望
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果



本文编号:3873856

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3873856.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户02d98***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com