当前位置:主页 > 管理论文 > 统计学论文 >

基于LDA-WO混合模型的微博话题有序特征抽取算法研究

发布时间:2023-03-18 21:09
  随着web2.0时代到来,互联网数据爆炸式增长,每天有上亿条新微博产生,远远超出个人信息处理能力,如何从中快速、准确获取有用信息,即主题信息抽取,变得十分必要。当前LDA主题模型,在微博文本主题抽取中得到广泛应用,但仍存以下问题:(1)忽略了不同词语对主题区分能力的不同,导致抽取结果不够准确;(2)抽取到的特征词是无序的,可读性较差,给用户从主题推测文档内容带来困难。因此,本文提出了一种新的微博主题抽取算法,以提高抽取结果的准确性和可读性。本文首先对信息抽取、主题模型和词序相关的理论进行梳理与总结,选择相关部分作为本文的研究基础;然后为了解决LDA模型抽取结果不准确的问题,本文在传统LDA模型的基础上,考虑不同词语对主题区分能力的不同,构建了扩展LDA主题模型;接着,为解决抽取结果可读性差的问题,本文基于词序理论和语言图模型思想,构建了WO词序模型,对主题建模抽取到的特征词进行排序,并基于词间有序的共现信息,设计了OPMI算法,获取了有序特征词组表示主题;之后,将扩展LDA模型与WO模型结合,构建了LDA-WO混合模型,并设计了基于LDAWO混合模型的微博话题有序特征抽取算法,以获取到...

【文章页数】:57 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 选题背景及意义
        1.1.1 选题背景
        1.1.2 选题意义
    1.2 国内外研究现状
        1.2.1 话题信息抽取研究现状
        1.2.2 主题模型研究现状
        1.2.3 词序相关研究现状
        1.2.4 研究现状小结
    1.3 研究内容及技术路线
        1.3.1 研究内容
        1.3.2 技术路线
    1.4 主要工作及创新点
第二章 相关基础理论研究
    2.1 文本抽取技术简介
    2.2 主题模型
        2.2.1 主题模型的发展
        2.2.2 LDA主题模型
    2.3 主题抽取相关评价指标
    2.4 本章小结
第三章 LDA-WO混合模型构建
    3.1 微博特征分析
    3.2 可扩展的LDA主题模型构建
    3.3 WO词序模型构建
    3.4 LDA-WO混合模型构建
        3.4.1 语料相似度判别
        3.4.2 特征词组构造
        3.4.3 LDA-WO混合模型结构
    3.5 本章小结
第四章 基于LDA-WO混合模型的微博有序特征抽取算法设计
    4.1 有序特征词组文本主题表示模型
    4.2 基于LDA-WO混合模型的微博话题有序特征抽取算法
        4.2.1 基于扩展LDA模型的无序主题抽取算法
        4.2.2 基于WO词序模型的词序调整算法
        4.2.3 基于OPMI的有序特征词组构建算法
    4.3 本章小结
第五章 实验设计与结果分析
    5.1 实验环境
    5.2 实验数据
        5.2.1 实验数据获取
        5.2.2 实验数据预处理
    5.3 基于LDA-WO混合模型的微博话题有序特征抽取对比实验
        5.3.1 扩展LDA主题建模
        5.3.2 WO特征词词序调整
        5.3.3 有序特征词组构造
    5.4 实验分析
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
在学期间的研究成果及发表的学术论文



本文编号:3763871

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3763871.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户8b18a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com