基于文档多维度特征融合的抽取式摘要研究

发布时间:2022-11-10 18:35
  随着5G时代的到来,网络上新闻、评论、文献等文本数据呈爆炸式增长,用户不得不花费大量的时间从文本中寻找自己所需要的信息,因此急需对这些海量文本进行有效的摘要提取。而利用计算机来进行文本自动摘要则是解决此问题的有效手段之一。摘要的本质是对文档语义的理解,所以本文围绕如何利用文档深层次语义特征来改善摘要质量展开研究,提出一种基于文档多维度特征融合的抽取式摘要方法。主要工作如下:(1)面对目前抽取式摘要研究多是利用一些启发式特征和浅层的语义特征问题,提出一种基于文档多维度语义的表征模型。句子在文档中的重要程度是和文档的语义息息相关的,而文档的语义在不同的维度上的表征是不同的。本文所提出的模型分别从文档的主题、细粒度以及上下文的关系来构建文档的语义表示。首先,利用LDA模型对文档进行主题分析并生成对应的主题词,并对其进行情感偏好分析,避免一些无实际意义的虚词对文档主题的干扰。然后,通过对文档不同细粒度的划分,利用CNN层来构建文档词语、句子与段落的语义表示,这可以有效的反映出文档的不同层级之间的层次性。最后通过Bi-LSTM层来构建句子在文档中的上下文关系特征,从而在不同的维度上对文档进行深层... 

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 引言
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文研究内容
    1.4 本文结构安排
第二章 自动摘要相关理论与方法
    2.1 主题模型
    2.2 深度学习模型
        2.2.1 卷积神经网络模型
        2.2.2 长短时记忆网络模型
    2.3 注意力机制
    2.4 本章小结
第三章 文档多维度语义特征建模
    3.1 引言
    3.2 文本预处理
    3.3 基于文档多维度语义的特征模型
        3.3.1 文档主题特征表示模型
        3.3.2 基于文档细粒度的特征表示模型
        3.3.3 句子上下文关系的特征表示模型
        3.3.4 模型求解
    3.4 本章小结
第四章 基于冗余性控制的抽取式摘要模型
    4.1 引言
    4.2 基于冗余性控制的摘要生成模型
        4.2.1 模型基本框架
        4.2.2 模型求解
    4.3 句子排序
    4.4 本章小结
第五章 实验分析
    5.1 数据集
    5.2 评价标准
    5.3 实验环境
    5.4 实验结果及分析
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
附录


【参考文献】:
期刊论文
[1]基于加权TextRank的中文自动文本摘要[J]. 黄波,刘传才.  计算机应用研究. 2020(02)
[2]基于混合机器学习模型的多文档自动摘要[J]. 唐晓波,翟夏普.  情报理论与实践. 2019(02)
[3]一种话题敏感的抽取式多文档摘要方法[J]. 应文豪,李素建,穗志方.  中文信息学报. 2017(06)
[4]近70年文本自动摘要研究综述[J]. 刘家益,邹益民.  情报科学. 2017(07)

博士论文
[1]面向网络评论信息的自动摘要技术研究与应用[D]. 张世博.北京邮电大学 2019
[2]基于有监督深度学习的抽取式多文档自动摘要研究[D]. 任鹏杰.山东大学 2018

硕士论文
[1]基于多文档摘要的研讨文本分析方法及应用[D]. 李元.湖北工业大学 2017



本文编号:3705097

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3705097.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户026d1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]