基于深度学习和注意力机制的文本分类方法研究

发布时间:2021-11-04 23:18
  随着计算机信息技术、移动互联网的快速发展,每天都会产生大量的文本数据。面对海量数据,高效获取有价值的信息变得尤为必要。为满足人们对信息的个性化需求,需使用相应的处理技术对海量文本数据进行加工与处理,而文本分类技术正是这些技术的基石。文本分类是自然语言处理领域的经典主题。传统文本分类方法通常采用浅层机器学习算法,通过人工设计特征选择方法对特征进行提取,此类方法人工成本高、耗时长、训练难,对海量数据的处理加工场景适应性差。基于深度学习的文本分类方法,能从海量文本数据中自动进行特征学习与特征提取,大幅降低人工成本且易于训练,算法领域迁移性得到增强。词向量作为一种特殊的文本表示形式,能够对语义相近的词进行表示,避免传统方法存在的语义鸿沟。在文本分类任务中使用自注意力机制,能够充分学习文本特征,发现重要特征忽略次要特征捕获文本中关键的信息。基于上述特点,本文结合深度学习与自注意力机制,针对不同类型的文本分类任务进行研究,主要研究工作如下:(1)使用词嵌入机制解决传统文本分类模型中数据表示的高维度、语义鸿沟问题。词嵌入将文本数据映射到低维的实数向量中,避免高维度输入导致的维数灾难,使用词嵌入机制训... 

【文章来源】:江西师范大学江西省

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究及发展现状
        1.2.1 文本分类研究现状
        1.2.2 深度学习研究现状
        1.2.3 注意力机制研究现状
    1.3 主要工作
    1.4 论文结构
2 相关基础理论介绍
    2.1 文本表示
        2.1.1 分布式表示
        2.1.2 Word2vec
    2.2 深度神经网络模型
        2.2.1 卷积神经网络
        2.2.2 GRU网络
    2.3 注意力机制
    2.4 评价指标
    2.5 本章小节
3 基于自注意力机制的单标签文本分类方法
    3.1 问题描述
    3.2 DSA-CNN模型
        3.2.1 架构
        3.2.2 算法流程描述
    3.3 实验与结果分析
        3.3.1 实验设置
        3.3.2 结果分析
    3.4 本章小节
4 基于自注意力机制的多标签文本分类方法
    4.1 问题描述
    4.2 SA-GRU模型
        4.2.1 架构
        4.2.2 算法流程描述
    4.3 实验与结果分析
        4.3.1 实验设置
        4.3.2 结果分析
    4.4 本章小节
5 总结与展望
    5.1 本文总结
    5.2 展望
参考文献
致谢
在读期间公开发表论文(著)及科研情况


【参考文献】:
期刊论文
[1]池化和注意力相结合的新闻文本分类方法[J]. 陶永才,杨朝阳,石磊,卫琳.  小型微型计算机系统. 2019(11)
[2]图卷积神经网络综述[J]. 徐冰冰,岑科廷,黄俊杰,沈华伟,程学旗.  计算机学报. 2020(05)
[3]基于独热编码和卷积神经网络的异常检测[J]. 梁杰,陈嘉豪,张雪芹,周悦,林家骏.  清华大学学报(自然科学版). 2019(07)
[4]基于混合卡方统计量与逻辑回归的文本情感分析[J]. 李平,戴月明,王艳.  计算机工程. 2017(12)
[5]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉.  计算机学报. 2011(05)
[6]基于SVM决策树的文本分类器[J]. 朱远平,戴汝为.  模式识别与人工智能. 2005(04)

硕士论文
[1]基于布尔模型的网页查重算法研究[D]. 连浩.中国科学院研究生院(计算技术研究所) 2006



本文编号:3476599

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3476599.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f095a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com