结合迁移学习的文本自动摘要技术研究

发布时间：2024-05-17 13:53

　　随着新时代信息数据的爆炸式增长,人们正面临着信息超载这一不可避免且有挑战性的问题。如今基于机器学习的文本自动摘要技术,有助于人们能够快速?准确地从海量的文本数据中获取关键信息。已有的文本自动摘要技术需要大量有标注语料进行模型训练,而在一个文本领域中训练好的模型直接应用于新的文本领域时效果很差。而要使模型在新的文本领域取得良好效果,需要依赖新文本领域中大量有标注语料重新训练。本文的工作在于设计一种低语料依赖的文本自动摘要模型及相应训练方法,降低将模型应用到新文本领域时对数据集的依赖,提高文本自动摘要模型的在小数据集上训练的性能。本文设计了基于门控循环单元神经网络的GRUseq2seq编码器-解码器自动摘要优化模型,并结合了指针机制与覆盖机制对模型进行了优化。本文使用门控循环单元替代seq2seq编码器-解码器中常用的循环神经网络单元或长短时记忆网络单元,在保证框架的编码解码能力的同时显著减少了网络需要训练的参数量,节省了计算资源。本文针对在生成式摘要中经常产生的超出词表问题和重复生成问题,借鉴使用了机器翻译领域中提出的指针机制和覆盖机制减少了超出词表和重复生成问题的产生,使模型生成自动摘...

【文章页数】：64 页

【学位级别】：硕士

【部分图文】：

图1.1论文主要内容框架

国防科技大学研究生院硕士学位论文第9页(1)为加快模型收敛速度，考虑将神经网络文本自动摘要模型常用的长短时记忆网络(LSTM)单元替换为待训练参数更少的门控循环单元(GRU)。(2)针对超出词表问题，由于摘要模型无法从词表中直接生成需要的低频词，考虑从原始文本中将所需生成的词直接....

图2.1基本的seq2seq编码器-解码器框架

玫奶岢觥Ｒ曰?鞣?氲挠τ梦侍馕???缬⒎ǚ?耄?创佑⒂锏椒?语文本转换，从序列到序列问题的角度看就是将输入的英文序列转换为法文序列输出。编码器-解码器框架中编码器的作用，就是把输入的序列转换成固定长度的文本向量表示，相应地解码器的作用就是将编码器转换出的固定文本向量表示再次转化成....

图2.2RNN的网络结构图

国防科技大学研究生院硕士学位论文第14页单词，由于自然语言中每个字词都与句子中其他字词相关才能产生意义，人类处理的方法是根据前文信息推断后文，而FNN的每一个同层隐藏状态间相互独立，完全无法考虑前后文的关联。为此提出了RNN以解决类似具有序列关联性的机器学习问题，其思想即在于体现....

图2.3不含注意力机制的RNN编码器-解码器框架

??饩偷贾掠镆逑蛄勘硎綾包含语义信息特征的能力受到限制；其次，由于编码阶段是按照时序将文本序列数据逐个输入编码端，在靠后序列输入的内容会稀释淡化之前时间步输入的内容信息特征。在长句子长文本输入序列中，这个特征丢失的现象就会更严重。那么解码端所依赖的初始输入也就是语义向量表示c没有....

本文编号：3975687

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3975687.html

上一篇：基于指标和分解的超多目标进化算法研究
下一篇：基于动态神经网络的宽带频谱检测技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|