当前位置:主页 > 科技论文 > 软件论文 >

基于词性特征与语义增强的短文本主题模型研究与应用

发布时间:2024-02-24 08:02
  短文本媒体逐渐成为人们日常生活中一种重要的信息来源,从短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要。与传统的新闻报道和科技文献等长文本相比,短文本通常具备内容简短随意、实时性强和数据量大等特点,这无疑给基于短文本的主题分析任务带来了巨大的挑战。现有的短文本主题模型往往无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中的稀疏性问题。并且,模型主要针对固定的短文本语料进行建模,属于离线式模型,无法很好地处理实际场景中实时更新的短文本流。此外,现有的短文本主题模型往往基于单机训练,而短文本由于生成成本相对较低、用户参与度较高,数据规模通常很大,导致模型的训练过程性能较低。因此,针对以上问题,本文研究提出一种基于词性特征与语义增强的短文本主题模型,包括离线和在线两种模式,同时基于Spark分布式平台研究实现了大规模场景下短文本主题模型的并行化训练算法,并将研究成果应用于江苏省市民热线服务平台的实际系统中。本文的主要研究工作和贡献点包括:(1)针对固定的短文本语料,研究提出一种基于词性特征与语义增强的离线式短文本主题模型PFE-DMM。该模型通过自定义词性特征,能有效...

【文章页数】:95 页

【学位级别】:硕士

【部分图文】:

图2-?1?LDA概率图模型??其中,M代表文档数,/Vm代表每篇文档中的单词数,/C代表设定的主题数,??

图2-?1?LDA概率图模型??其中,M代表文档数,/Vm代表每篇文档中的单词数,/C代表设定的主题数,??

图2-?1?LDA概率图模型??文档数,/Vm代表每篇文档中的单词数,/C代表设定中的第n个单词,其对应的主题分配为?%^。文档下的布分别表示为&和,分别服从于参数为3和及的狄生成过程可以表示为:??rithm?3:?LDA?生成过程??于每个主题fc?e?[1,欠]:??采样对....


图2-?2?CBOW模型和Skip-gram模型??

图2-?2?CBOW模型和Skip-gram模型??

优化设计使得Spark的计算能力提升了?1-2个数量级。??由于RDD具有丰富的表达能力,伯克利在Spark?Core的基础上衍生出了一??套能够处理不同场景的统一大数据处理平台,其生态系统组件如图2-3所示。其??中,Spark?Core是整个系统的核心组件,提供了多种编程语言....


图2-?3?Spark生态系统组件??,

图2-?3?Spark生态系统组件??,

CBOW?Skip-gram??图2-?2?CBOW模型和Skip-gram模型??2.3大数据相关技术??信息化时代数据量爆炸性增长,单台计算机的处理能力和I/O性能已远远不??能满足大规模数据的处理要求,于是各种大数据平台应运而生。本节主要介绍本??文使用到的分布式计算框架S....


图2-?4?HDFS系统架构??

图2-?4?HDFS系统架构??

?BBiBbMB??图2-?3?Spark生态系统组件??本文提出的模型在训练过程中涉及多轮迭代计算,而基于内存分布式计算的??Spark系统非常适用于迭代计算,中间结果直接存储在内存中。同时,构建于Spark??Core之上的MUib是一个针对大规模机器学习通用快速的计算引擎,....



本文编号:3908684

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3908684.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户8cfff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com