当前位置:主页 > 科技论文 > 软件论文 >

面向短文本的动态聚类方法研究

发布时间:2024-03-08 01:14
  随着网络社交媒体平台和移动互联网设备的日益普及,新浪微博、Twitter等社交软件在人们日常生活中的使用也越来越广泛。互联网用户每天都产生亿级的文本数据通过这些软件进行传播,这些文本字数少且特征随着时间发生改变,被称为短文本动态数据流。海量短文本数据流的聚类分析对于舆论导向分析、新闻热门话题追踪以及个性化用户兴趣挖掘等具有重要意义。由于短文本的内容长度受限,存在数据特征稀疏问题,同时对于时变文本数据流,其数据特征随时间的改变而发生变化,导致现行的动态聚类方法的效果表现不佳,因此,有效提高面向短文本的动态聚类效果是文本挖掘分析的重要课题。本文主要研究面向短文本数据的动态聚类问题,从主题传递的角度出发,讨论主题继承性对动态聚类效果及聚类过程中新主题产生的影响,同时考虑到在不同类型的文本数据中,主题继承性的强弱调整有所不同,因此本文通过先验调整主题继承性以提升短文本动态聚类效果。本文的主要研究工作及成果包括:(1)具有新主题倾向性的动态狄利克雷多项混合(Dynamic Dirichlet Multinomial Mixture,DDMM)模型,模型考虑了各时间窗之间的主题继承,在先验中引入折...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图2-2LDA的生成概率模型图

图2-2LDA的生成概率模型图

图2-2LDA的生成概率模型图图中,矩形方框表示循环生成,无阴影图形表示不可观测变量,即潜在的参影图形表示可观测变量。且M表示语料库中的文档篇数,K表示主题个数,含有V个词项,Nm表示在文档dm中所包含的词语数目。wm,n表示在文档dm中词语。zm,n表示在文....


图3-2DCT模型在模拟数据集上获取的各数据点的类别标签

图3-2DCT模型在模拟数据集上获取的各数据点的类别标签

贵州大学硕士学位论文图3-2和3-3所示。其中,DDMM模型在各时间窗口内进行聚类分析计算出的NMI值分别为:0.991、0.996、0.993,Purity值分别为:0.990、0.998、0.997。DCT模型在各时间窗口内进行聚类分析计算出的NMI值分别....


图3-3DDMM模型在模拟数据集上获取的各数据点的类别标签

图3-3DDMM模型在模拟数据集上获取的各数据点的类别标签

贵州大学硕士学位论文图3-2和3-3所示。其中,DDMM模型在各时间窗口内进行聚类分析计算出的NMI值分别为:0.991、0.996、0.993,Purity值分别为:0.990、0.998、0.997。DCT模型在各时间窗口内进行聚类分析计算出的NMI值分别....


图3-4DDMM模型在每轮迭代中获取的聚类个数

图3-4DDMM模型在每轮迭代中获取的聚类个数

贵州大学硕士学位论文知:新主题的产生更符合动态数据的实际特征,因此使得聚类为DDMM模型具有产生新主题的偏向性,并且其聚类指标DDMM模型在聚类过程中能够自动估算出聚类个数,这是代过程中设置了一个足够大的主题数K,然后在每轮迭代中将状态,便可得出实际的主题数K*,实验结....



本文编号:3921783

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3921783.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户efd17***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com