当前位置:主页 > 管理论文 > 信息管理论文 >

基于动态主题模型的微博用户分类画像应用研究

发布时间:2020-05-30 09:05
【摘要】:近年来,以Facebook、Twitter、新浪微博等为代表的社交网络服务飞速发展,用户量和覆盖率逐年攀升,已经成为人们日常生活中重要的社交娱乐方式,也成为了各大企业进行品牌建设、精准营销等个性化服务的切入点。用户在社交网站上留下的个人信息和行为信息,成为企业研究用户特征,了解用户需求,深入剖析用户的重要数据来源。用户画像技术可以通过对用户数据的分析和挖掘,将用户表达为多标签组成的用户原型,能够帮助企业精准定位目标用户,是后续个性化推荐等服务的基础,有着重要的商业价值。在这一背景下,本文主要研究了基于动态主题模型的微博用户画像构建问题。在传统的社交用户画像构建技术中,研究者将用户发布的文本内容看做无序的语料库,进而提取用户的兴趣特征。然而,用户的兴趣特征会随着时间发生变化,近期的特征表现所占权重更高,更利于准确的描述用户特征。因此,本文将时间因素引入微博用户的兴趣提取流程中,通过动态主题模型分析用户的兴趣在时间维度上的变化。整体而言,本文的主要内容和创新点可以概括为两个方面:1.提出了基于动态主题模型的微博用户兴趣提取方法,根据微博内容的时间戳将语料库分为不同的时间切片,实现主题在时间轴方向上的演化,最终得出用户的兴趣特征;2.构建了不同类型微博用户的细分画像,根据用户的活跃度指数将用户分为四种不同类别,并结合用户的静态特征和兴趣特征构建更加全面的用户画像,分析不同类别用户画像之间的差异。
【图文】:

流程图,画像,流程


还需要融合用户在多个平台上的行为数据,打通信息渠道。用户在不同类型的社交网站上所表达出来的信息也表达了用户在不同方面的特征属性。比如,同一个用户会在微博上分享他的日常生活,同时会在豆瓣上标记和评论他所喜欢的电影或书籍,这两者都是刻画用户特征的重要组成部分。如果能够将同一用户在不同社交网络上的信息整合起来,互相补充,也能够对用户建模有所帮助。解决这一问题的难点在于保证不同网站不同账户下的用户是同一个人。国外也有很多学者针对这一问题,设计了账户匹配算法,试图通过用户基础属性的相似度对比来实现跨平台用户识别[21]。2.1.2 用户画像构建流程目前主流的用户画像的生成包括基础数据采集、用户特征提取和多维画像构建三个步骤。

模型图,模型图,主题


主题模型是一种生成模型,它的基础假定是文档中不同词语的生成某一概率模型选定一个主题,然后再依据该主题对词语的概率分布进的。主题模型中的“主题”(topic)表示某一个方面或概念,表现为一率分布。主题模型中最为常用的两种是 pLSA 和 LDA,pLSA 中每个服从多项分布,每个主题中的词语也服从多项分布,,而 LDA 模型则上加入了 Dirichlet 先验分布得到的,需要提供先验分布的参数才能模型估计。A 方法在形成文档时,第一步是确定一个主题向量θ,表示每个主概率,然后再根据θ选择某一主题 z,按照 z 的词语概率分布生成单词如下图所示:
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F49;F274;TP391.1

【参考文献】

相关期刊论文 前4条

1 曹丽娜;唐锡晋;;基于主题模型的BBS话题演化趋势分析[J];管理科学学报;2014年11期

2 丁宇新;肖骁;吴美晶;张逸彬;董丽;;基于半监督学习的社交网络用户属性预测[J];通信学报;2014年08期

3 廖君华;孙克迎;钟丽霞;;一种基于时序主题模型的网络热点话题演化分析系统[J];图书情报工作;2013年09期

4 胡艳丽;白亮;张维明;;网络舆情中一种基于OLDA的在线话题演化方法[J];国防科技大学学报;2012年01期



本文编号:2687912

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/sjfx/2687912.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33afe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com