基于词性特征与语义增强的短文本主题模型研究与应用

发布时间：2024-02-24 08:02

　　短文本媒体逐渐成为人们日常生活中一种重要的信息来源,从短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要。与传统的新闻报道和科技文献等长文本相比,短文本通常具备内容简短随意、实时性强和数据量大等特点,这无疑给基于短文本的主题分析任务带来了巨大的挑战。现有的短文本主题模型往往无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中的稀疏性问题。并且,模型主要针对固定的短文本语料进行建模,属于离线式模型,无法很好地处理实际场景中实时更新的短文本流。此外,现有的短文本主题模型往往基于单机训练,而短文本由于生成成本相对较低、用户参与度较高,数据规模通常很大,导致模型的训练过程性能较低。因此,针对以上问题,本文研究提出一种基于词性特征与语义增强的短文本主题模型,包括离线和在线两种模式,同时基于Spark分布式平台研究实现了大规模场景下短文本主题模型的并行化训练算法,并将研究成果应用于江苏省市民热线服务平台的实际系统中。本文的主要研究工作和贡献点包括:(1)针对固定的短文本语料,研究提出一种基于词性特征与语义增强的离线式短文本主题模型PFE-DMM。该模型通过自定义词性特征,能有效...

【文章页数】：95 页

【学位级别】：硕士

【部分图文】：

图２－?１?ＬＤＡ概率图模型??其中，Ｍ代表文档数，／Ｖｍ代表每篇文档中的单词数，／Ｃ代表设定的主题数，??

图２－?１?ＬＤＡ概率图模型??文档数，／Ｖｍ代表每篇文档中的单词数，／Ｃ代表设定中的第ｎ个单词，其对应的主题分配为？％＾。文档下的布分别表示为＆和，分别服从于参数为３和及的狄生成过程可以表示为：??ｒｉｔｈｍ?３：?ＬＤＡ?生成过程??于每个主题ｆｃ?ｅ?［１，欠］：??采样对....

图２－?２?ＣＢＯＷ模型和Ｓｋｉｐ－ｇｒａｍ模型??

优化设计使得Ｓｐａｒｋ的计算能力提升了?１－２个数量级。??由于ＲＤＤ具有丰富的表达能力，伯克利在Ｓｐａｒｋ?Ｃｏｒｅ的基础上衍生出了一??套能够处理不同场景的统一大数据处理平台，其生态系统组件如图２－３所示。其??中，Ｓｐａｒｋ?Ｃｏｒｅ是整个系统的核心组件，提供了多种编程语言....

图２－?３?Ｓｐａｒｋ生态系统组件??，

ＣＢＯＷ?Ｓｋｉｐ－ｇｒａｍ??图２－?２?ＣＢＯＷ模型和Ｓｋｉｐ－ｇｒａｍ模型??２．３大数据相关技术??信息化时代数据量爆炸性增长，单台计算机的处理能力和Ｉ／Ｏ性能已远远不??能满足大规模数据的处理要求，于是各种大数据平台应运而生。本节主要介绍本??文使用到的分布式计算框架Ｓ....

图２－?４?ＨＤＦＳ系统架构??

?ＢＢｉＢｂＭＢ??图２－?３?Ｓｐａｒｋ生态系统组件??本文提出的模型在训练过程中涉及多轮迭代计算，而基于内存分布式计算的??Ｓｐａｒｋ系统非常适用于迭代计算，中间结果直接存储在内存中。同时，构建于Ｓｐａｒｋ??Ｃｏｒｅ之上的ＭＵｉｂ是一个针对大规模机器学习通用快速的计算引擎，....

本文编号：3908684

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3908684.html

上一篇：协同过滤算法的设计及并行化实现与应用
下一篇：面向截面分析与RPS定位的车身可制造性分析系统开发研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|