融合全局和局部特征的文本分类方法研究

发布时间:2023-04-08 01:54
  文本分类是数据挖掘和自然语言处理领域中的一个重要处理步骤,是许多应用技术实现的前提,当前已经成为学术界和工业界最受关注的研究前沿问题之一。大多数基于深度学习技术的文本分类方法将单词作为文本特征,然后对这些文本特征进行一层层的提炼得到表达能力强的局部特征。最后的分类结果也完全依赖于这些提取的局部特征。虽然这些局部特征可以很好的描述单词的特性以及上下文关系,但是难以从全局的角度对各个类别的文档语义信息进行描述。因此,为了进一步提高文本分类方法的准确率和适应性,提取能够表示文档全局语义信息的全局特征,是当前文本分类领域的关键性和热点问题。进一步提升文本分类方法的准确率仍具有很大的挑战性:(1)不同数据集的局部特征分布差异较大,输入数据未经提炼可能会导致中性词干扰的问题;(2)一部分数据集的分布不均衡,同时有标签的数据偏少,可能会导致文本分类模型的泛化能力不足;(3)现有的深度学习方法对不同主题构建统一的模型框架进行处理,未能考虑不同主题文档之间的差异和区别;(4)现有方法忽略了能表示不同类别样本之间空间距离的全局特征,文档类别距离信息缺失。因此,仅仅选择将局部特征作为分类模型的输入,会缺失不...

【文章页数】:115 页

【学位级别】:博士

【文章目录】:
论文创新点
中文摘要
ABSTRACT
第一章 引言
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 传统的文本分类方法
        1.2.2 基于CNNs的文本分类
        1.2.3 基于RNNs的文本分类
        1.2.4 基于GANs的文本分类
        1.2.5 基于Caps Net的文本分类
        1.2.6 词向量表示工具
    1.3 文本分类面临的挑战
    1.4 本文主要的工作内容
    1.5 全文组织结构
第二章 基于高效用神经网络的文本分类
    2.1 问题描述
    2.2 相关工作
    2.3 模型框架
        2.3.1 挖掘层
        2.3.2 特征提取层
    2.4 实验分析
        2.4.1 实验数据集
        2.4.2 基准算法与实验设置
        2.4.3 实验结果与分析
        2.4.4 不同的效用阈值对结果的影响
    2.5 本章小结
第三章 基于成对词神经网络的文本分类
    3.1 问题描述
    3.2 相关工作
    3.3 模型框架
        3.3.1 显式成对词挖掘
        3.3.2 隐式成对词挖掘
        3.3.3 成对词神经网络框架
    3.4 实验结果
        3.4.1 实验数据集
        3.4.2 基准算法和参数设置
        3.4.3 在One-hot编码下的实验结果
        3.4.4 在Word2vec编码下的实验结果
        3.4.5 在Glove编码下的实验结果
        3.4.6 不同的成对词数量对结果的影响
    3.5 本章小结
第四章 基于挛生胶囊网络的文本分类
    4.1 问题描述
    4.2 相关工作
    4.3 模型框架
        4.3.1 问题形式化
        4.3.2 基本胶囊网络
        4.3.3 孪生胶囊网络
        4.3.4 全局记忆机制
    4.4 实验结果
        4.4.1 基准算法
        4.4.2 实验设置和超参数
        4.4.3 总体性能
        4.4.4 模型稳定性分析
        4.4.5 比较实验
    4.5 本章小结
第五章 基于三重胶囊网络的文本分类
    5.1 问题描述
    5.2 相关工作
    5.3 模型框架
        5.3.1 问题形式化
        5.3.2 三重损失函数
        5.3.3 局部特征提取
    5.4 实验结果
        5.4.1 实验配置
        5.4.2 基准算法
        5.4.3 总体实验结果
        5.4.4 训练规模的影响
    5.5 本章小结
第六章 总结与展望
    6.1 论文的主要贡献
    6.2 未来的工作展望
参考文献
致谢
攻博期间发表的科研成果目录
    发表的论文
    发明专利
    攻博期间参与的项目



本文编号:3785764

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3785764.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户3ba83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com