基于LDA主题模型的新浪微博用户兴趣研究

发布时间：2022-01-01 07:30

　　随着我国移动互联网发展日渐成熟和稳定,各个社交平台为了抢夺彼此之间的市场份额,更加注重内容的多样化,积极寻求模式上的创新和突破。虽然新浪微博在移动社交行业中继续占据头部地位,但是行业内的激烈竞争也给新浪微博的发展带来了巨大挑战。新浪微博的核心竞争力在于头部用户群体和优质的原创内容带来的传播效应,这就要求平台在当前环境下对用户需求的把控要更加精准。围绕该问题,本文针对新浪微博用户的兴趣偏好进行了相关研究。LDA（LatentDirichletAllocation）概率主题模型是由Blei等提出的三层概率结构模型,它可以通过训练得到每篇文档在主题空间上的概率分布和每个主题在词空间上的概率分布,其本身具有无监督学习的特征,不需要给出一些已知标注的语言实例,可以直接对未知语料库进行LDA建模。在很多关于新浪微博用户兴趣偏好的研究中,都是按照这种方式直接对以用户为单位建立的微博文档集进行建模和训练,得到文档集的主题词分布作为用户兴趣偏好的描述信息。本文在此基础上补充了另外一种推断方式,即利用已知语料库有监督的去训练得到一个最优模型,再利用这个训练好的最优模型,针对其他未知语料库中以用户为单位建立...

【文章来源】：山东大学山东省 211工程院校 985工程院校教育部直属院校

【文章页数】：81 页

【学位级别】：硕士

【部分图文】：

图２－１?ＰＬＳＡ模型文档生成过程??－

过程图,文档,骰子,模型

山东大学硕士学位论文??第３章ＬＤＡ主题模型的构建??３．１模型的推导和表示??３．１．１加入贝叶斯框架??ＰＬＳＡ模型是在频率学派的思想下产生，认为关于主题分布和词分布的参数??和沉是固定的，但是在贝叶斯统计学派来看，这显然是不合理的。既然假定词??是通过抛骰子随机产生的，那么骰子也应该是随机产生的，换句话来说，代表两??种骰子的参数和沉应该是随机变量，并且符合一定的分布。ＬＤＡ主题模型在??ＰＬＳＡ模型的基础上加入了贝叶斯框架，选择了狄利克雷分布作为参数和沉的??先验分布，这样可以利用共轭分布的参数传递性来更好的估计参数。??丄?ｔｏｐｉｃ－ｗｏｒｄ?Ｉｆｉ１？?｜??Ｋ－ｒｓ?＾?ｖ个面??对Ｓ?■编号?１－Ｋ？Ｋｔ??｜?ｇ＇ＯｉｒＷ??１??图３－１?ＬＤＡ模型文档生成过程??如上图３＿１所示，重新考察文档的生成过程：（１）有两种类型的骰子，每种??都是有无数多个。第一种是ｄｏｃ－ｔｏｐｉｃ?（文档－主题）骰子，每个骰子有Ｋ个面，每??个面是一个非重复主题编号，编号从１到Ｋ；第二种是ｔｏｐｉｃ－ｗｏｒｄ?（主题－词语）??骰子，每个骰子有Ｖ个面，每个面对应着一个非重复单词。（２）随机的从第二种??散子里独立的抽出Ｋ个ｔｏｐｉｃ－ｗｏｒｄ骰子，为其编号为１到Ｋ，与ｄｏｃ－ｔｏｐｉｃ散子每??个面的主题编号是一一对应的。（３）每次生成一篇新的文档之前，先从第一种骰??子里抽出一个ｄｏｃ－ｔｏｐｉｃ骰子，然后重复如下过程直到生成文档中所有词：投掷??这个骰子，得到一个主题编号ｋ，选择Ｋ个ｔｏｐｉｃ－ｗｏｒｄ骰子中对应编号为ｋ的那个，??投掷这个骰子产生一个词。??２１??

模型图,概率,模型,主题

第３章ＬＤＡ主题模型的构建??３．１．２增加参数??ｗｍ?￣?＊＾ｍｌ?＾７０２?？？？?ＷｍＮｍ??图３－２文档生成过程中ｗｏｒｄ和ｔｏｐｉｃ对应关系??如上图３－２所示，在ＬＤＡ模型中，因为生成每个词的ｔｏｐｉｃ－ｗｏｒｄ骰子的编号??依赖于抛掷ｄｏｃ－ｔｏｐｉｃ骰子得到的主题编号，那么意味着语料库中的每个词都与??一个主题编号唯一对应。己知语料库为Ｗ?＝?％，），第ｍ篇文档＜?＝??（ｗｍｌ，ｗｍ２，．．．，ｗｍＮｍ），根据主题和词的对应关系，等价定义语料库所有主题编号集??合Ｚ?＝瓦，石，…，切，第ｍ篇文档所有主题编号集合Ｇ?＝?（Ｚ＾Ｚｍ，ｚｍＮ?Ｊ。??３．１．３物理过程分解??？——＊？??（ＺｍＢ）??？－－Ｋ§）???ｎｅｌｌ，ＨＵ??丨??图３－３?ＬＤＡ概率图模型??如上图３－３所示，在ＬＤＡ概率图模型中，只有ｗｍｎ为可观察到的变量，其他??都是隐变量或者参数。ｉ?ｇ为先验分布狄利克雷分布的参数，巧为第ｍ篇文档的??主题分布，沉为第ｋ个主题的词分布，Ｚｎｍ为第ｍ篇文档第ｎ个词对应的主题编号。??那么ＬＤＡ模型生成文档的过程被分为了两个物理过程：??第一个物理过程５?—巧；—Ｚｍｎ是生成主题编号的过程，这个过程表示在生成??第ｍ篇文档的时候，先从第一种骰子中抽出一个ｄｏｃ－ｔｏｐｉｃ骰子１＾，或者说从参数??为５的狄利克雷分布中取样生成第ｍ篇文档的主题分布巧：，然后投掷这个骰子生??成了文档中第ｎ个词对应的主题编号ｚｍｎ。??第二个物理过程＠?—雨—Ｗｍｎ｜ｋ?＝?ｚｍｎ是在确定的主题编号下生成词的过程，??这个过程表示从第二种骰子中抽出Ｋ个ｄｏｃ－ｔｏｐｉｃ骰子，或者说从参数

【参考文献】：
期刊论文
[1]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[2]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)

硕士论文
[1]基于主题词的微博用户兴趣模型研究[D]. 万子玮.首都经济贸易大学 2018
[2]基于爬虫和LDA的新闻话题挖掘[D]. 曹牧原.河北大学 2018
[3]基于Labeled-LDA模型的在线医疗专家推荐研究[D]. 倪秀丽.浙江大学 2018
[4]基于改进LDA算法的微博用户兴趣偏好分析系统的设计与实现[D]. 楼小帆.北京邮电大学 2017
[5]基于微博的用户兴趣分析与个性化信息推荐[D]. 王广新.上海交通大学 2013

本文编号：3561904

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3561904.html

上一篇：独立学院经管类专业统计学教学改革浅析
下一篇：中等职业技术学校统计学教学研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|