面向短文本的动态聚类方法研究

发布时间：2024-03-08 01:14

　　随着网络社交媒体平台和移动互联网设备的日益普及,新浪微博、Twitter等社交软件在人们日常生活中的使用也越来越广泛。互联网用户每天都产生亿级的文本数据通过这些软件进行传播,这些文本字数少且特征随着时间发生改变,被称为短文本动态数据流。海量短文本数据流的聚类分析对于舆论导向分析、新闻热门话题追踪以及个性化用户兴趣挖掘等具有重要意义。由于短文本的内容长度受限,存在数据特征稀疏问题,同时对于时变文本数据流,其数据特征随时间的改变而发生变化,导致现行的动态聚类方法的效果表现不佳,因此,有效提高面向短文本的动态聚类效果是文本挖掘分析的重要课题。本文主要研究面向短文本数据的动态聚类问题,从主题传递的角度出发,讨论主题继承性对动态聚类效果及聚类过程中新主题产生的影响,同时考虑到在不同类型的文本数据中,主题继承性的强弱调整有所不同,因此本文通过先验调整主题继承性以提升短文本动态聚类效果。本文的主要研究工作及成果包括:(1)具有新主题倾向性的动态狄利克雷多项混合(Dynamic Dirichlet Multinomial Mixture,DDMM)模型,模型考虑了各时间窗之间的主题继承,在先验中引入折...

【文章页数】：67 页

【学位级别】：硕士

【部分图文】：

图2-2LDA的生成概率模型图

图2-2LDA的生成概率模型图图中，矩形方框表示循环生成，无阴影图形表示不可观测变量，即潜在的参影图形表示可观测变量。且M表示语料库中的文档篇数，K表示主题个数，含有V个词项，Nm表示在文档dm中所包含的词语数目。wm,n表示在文档dm中词语。zm,n表示在文....

图3-2DCT模型在模拟数据集上获取的各数据点的类别标签

贵州大学硕士学位论文图3-2和3-3所示。其中，DDMM模型在各时间窗口内进行聚类分析计算出的NMI值分别为：0.991、0.996、0.993，Purity值分别为：0.990、0.998、0.997。DCT模型在各时间窗口内进行聚类分析计算出的NMI值分别....

图3-3DDMM模型在模拟数据集上获取的各数据点的类别标签

贵州大学硕士学位论文图3-2和3-3所示。其中，DDMM模型在各时间窗口内进行聚类分析计算出的NMI值分别为：0.991、0.996、0.993，Purity值分别为：0.990、0.998、0.997。DCT模型在各时间窗口内进行聚类分析计算出的NMI值分别....

图3-4DDMM模型在每轮迭代中获取的聚类个数

贵州大学硕士学位论文知：新主题的产生更符合动态数据的实际特征，因此使得聚类为DDMM模型具有产生新主题的偏向性，并且其聚类指标DDMM模型在聚类过程中能够自动估算出聚类个数，这是代过程中设置了一个足够大的主题数K，然后在每轮迭代中将状态，便可得出实际的主题数K*，实验结....

本文编号：3921783

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3921783.html

上一篇：基于语义相似度的用户—商品关联信息交互体系研究
下一篇：基于共享平台的供应链闲置资源动态优化配置策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|