当前位置:主页 > 管理论文 > 统计学论文 >

基于卷积神经网络的中文文本分类研究

发布时间:2022-03-09 12:34
  互联网的快速发展,使得互联网上的数据呈指数级的增长,人类社会正迈入大数据时代;如何有效的存储、管理进而挖掘出数据中的价值,从而为人类社会服务,是当今学术界和工业界都极度重视的课题。文本数据作为信息的主要载体之一,相比于图像、视频等,在携带的信息量大致相同的情况下,占用的网络资源最少,传播更为方便、快捷,因此成为互联网上主要的信息传播载体。文本分类是文本数据管理、价值挖掘的最重要的部分,而传统分类方法模型表达能力较弱,已无法应对文本分类领域海量数据、多类别等问题的挑战,寻找新的文本表示与分类方法变得十分紧迫。本文采用深度学习中的卷积神经网络模型作为分类器,利用Word2vec模型提取文本特征,先将经过分词后的文本库中的每个词语映射到一个固定长度的向量,再遍历每篇文本,将文本中的词语逐一转换为向量,依次排列,得到文本的矩阵表示;文本库中的单个文本最大长度决定了最终的文本矩阵行数,不足的部分补零,最后将文本矩阵输入到卷积神经网络模型中;针对原始文本库中的词语数量多、单个文本包含词汇量较多,不利于后续分类处理的问题,本文采用LDA模型,先训练提取所有文本的潜在主题,再由潜在的主题得到与每个主题... 

【文章来源】:华中科技大学湖北省211工程院校985工程院校教育部直属院校

【文章页数】:62 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
1 绪论
    1.1 课题背景与研究意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 论文的结构安排
2 文本特征提取相关技术介绍
    2.1 中文分词方法与常用工具
        2.1.1 基于字符串匹配的分词方法
        2.1.2 基于理解的分词方法
        2.1.3 基于统计的分词方法
        2.1.4 常用分词工具
    2.2 传统的文本特征提取方法
        2.2.1 One-hot模型
        2.2.2 TF-IDF模型
        2.2.3 LDA模型
    2.3 分布式文本特征提取方法
    2.4 本章小结
3 常用文本分类算法
    3.1 支持向量机
        3.1.1 支持向量机原理
        3.1.2 支持向量机的优缺点
    3.2 朴素贝叶斯
        3.2.1 朴素贝叶斯算法原理
        3.2.2 朴素贝叶斯算法的优缺点
    3.3 随机森林
        3.3.1 决策树
        3.3.2 随机森林
        3.3.3 随机森林的优缺点
    3.4 本章小结
4 基于卷积神经网络的中文文本分类系统
    4.1 卷积神经网络模型结构介绍
        4.1.1 卷积神经网络输入层
        4.1.2 卷积神经网络卷积层
        4.1.3 卷积神经网络的池化层
        4.1.4 卷积神经网络全连接层
    4.2 卷积神经网络模型的训练方法
    4.3 本章小结
5 实验过程与结果分析
    5.1 实验环境
    5.2 数据描述
    5.3 文本分类性能评测指标
    5.4 传统分类器实验结果
        5.4.1 特征提取
        5.4.2 分类结果
    5.5 卷积神经网络实验结果
        5.5.1 LDA提取主题相关单词
        5.5.2 卷积神经网络分类结果
6 总结与展望
    6.1 论文总结
    6.2 工作展望
参考文献
致谢
附录


【参考文献】:
期刊论文
[1]单词嵌入——自然语言的连续空间表示[J]. 陈恩红,邱思语,许畅,田飞,刘铁岩.  数据采集与处理. 2014(01)
[2]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟.  计算机研究与发展. 2013(09)
[3]SVM及其在文本分类中的应用[J]. 罗玉华,左军,李岩.  科技信息. 2010(03)
[4]汉语文本自动分词算法的研究[J]. 何国斌,赵晶璐.  计算机工程与应用. 2010(03)
[5]中文分词十年回顾[J]. 黄昌宁,赵海.  中文信息学报. 2007(03)
[6]文本的图表示初探[J]. 周昭涛,卜东波,程学旗.  中文信息学报. 2005(02)
[7]基于N-最短路径方法的中文词语粗分模型[J]. 张华平,刘群.  中文信息学报. 2002(05)
[8]书面汉语的自动分词与一个自动分词系统—CDWS[J]. 梁南元.  北京航空学院学报. 1984(04)

博士论文
[1]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
[2]文本分类关键技术及应用研究[D]. 凤丽洲.吉林大学 2015
[3]支持向量机算法及其应用研究[D]. 张国云.湖南大学 2006

硕士论文
[1]中文分词技术在搜索引擎中的研究与应用[D]. 魏光泽.青岛科技大学 2016
[2]中文分词算法的研究与实现[D]. 秦赞.吉林大学 2016
[3]基于卷积神经网络的句子分类算法[D]. 林荣华.浙江大学 2015
[4]随机森林在文本分类中的应用[D]. 贺捷.华南理工大学 2015
[5]基于朴素贝叶斯方法的中文文本分类研究[D]. 李丹.河北大学 2011
[6]基于神经网络的中文分词算法的研究[D]. 张晓淼.大连理工大学 2006



本文编号:3645694

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3645694.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户aee1b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com