基于深度学习方法的中文分词和词性标注研究

发布时间:2023-01-15 09:32
  中文词法分析任务是中文信息处理中的一项基本任务,主要包括两大部分,分别是中文分词和中文词性标注。目前的主流模型虽然表现优秀,但是依然忽略了很多要素,像分词中的相邻词特征,词性标注中的字符特征等,导致不能完全解决中文切分歧义和词性兼类等问题。本论文的目的是针对中文分词和词性标注任务的特点,分别提出了在分词任务中加入相邻词特征的方法和在词性标注任务中融合字符特征的方法,并且提出了一种针对序列标注任务的新型编解码结构。首先,针对中文分词任务中相邻字符构成词的特点,尝试在简单的序列标注模型的基础上,使用基于窗口采样的方式得到相邻字符的特征表示,在表示学习层中通过注意力的方式将相邻字符特征融合到模型中。这样的方式不仅充分考虑到了文本的上下文信息,还考虑到了相邻字符之间的耦合关系,可以得到每个字符特征的更加完整的表示。同时针对序列标注问题根据原始输入和输出之间的严格对齐关系,受到编解码结构的启发,采用词和标签双嵌入的方式,在编码器中增加对候选标签的预测,在解码器中使用基于注意力机制的隐藏特征监督候选标签对结果的预测来关联原始输入和标签之间以及前后标签之间的关系,提高了模型的泛化能力。然后,在针对词... 

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 国内外研究进展
    1.3 本文研究内容
    1.4 本文结构安排
第二章 深度学习与自然语言处理
    2.1 词表示方法
        2.1.1 离散表示
        2.1.2 分布式词表示
    2.2 循环神经网络
        2.2.1 RNN
        2.2.2 RNN的训练方法
        2.2.3 LSTM
        2.2.4 GRU
    2.3 模型的正则化
        2.3.1 Dropout
        2.3.2 L2正则化
    2.4 CRF和维特比解码
    2.5 本章小结
第三章 基于深度学习的中文分词
    3.1 基于神经网络的基线序列标注方法
        3.1.1 输入层
        3.1.2 表示学习层
        3.1.3 标签预测层
        3.1.4 基线序列标注方法的实验
    3.2 考虑相邻字符关联的序列标注方法
        3.2.1 考虑相邻字符的模型介绍
        3.2.2 考虑相邻字符关联模型的实验
    3.3 基于神经网络的普通编解码方法
        3.3.1 序列到序列模型
        3.3.2 基于注意力机制的序列到序列模型
        3.3.3 集束搜索
        3.3.4 序列到序列模型的实验
    3.4 针对序列标注任务改进的编解码模型
        3.4.1 改进编解码模型介绍
        3.4.2 改进编解码模型的实验
        3.4.3 各方法结果对比
    3.5 本章小结
第四章 基于深度学习的词性标注
    4.1 问题简介
    4.2 词性标注基线模型
    4.3 考虑字符特征的词性标注方法
        4.3.1 尝试加入首尾字符特征
        4.3.2 尝试加入词的全部字符特征
    4.4 基于改进编解码结构的词性标注
    4.5 本章小结
第五章 总结与展望
    5.1 全文总结
    5.2 展望
致谢
参考文献


【参考文献】:
期刊论文
[1]基于半监督CRF的跨领域中文分词[J]. 邓丽萍,罗智勇.  中文信息学报. 2017(04)
[2]基于CNN和LSTM混合模型的中文词性标注[J]. 谢逸,饶文碧,段鹏飞,陈振东.  武汉大学学报(理学版). 2017(03)
[3]隐马尔可夫模型在中文文本分词中应用研究[J]. 王庆福.  无线互联科技. 2016(13)
[4]一种基于词典的中文分词改进算法[J]. 郑木刚,刘木林,沈昱明.  软件导刊. 2016(03)
[5]警务应用中基于双向最大匹配法的中文分词算法实现[J]. 陶伟.  电子技术与软件工程. 2016(04)
[6]基于改进型正反向最大匹配中文分词算法的研究[J]. 李霞婷.  信息技术与信息化. 2015(06)
[7]词典与后缀数组相结合的中文分词方法[J]. 曹月雷,纪文彦,贾斌.  硅谷. 2012(21)
[8]基于改进的隐马尔科夫模型的词性标注方法[J]. 袁里驰.  中南大学学报(自然科学版). 2012(08)
[9]基于条件随机场的无监督中文词性标注[J]. 孙静,李军辉,周国栋.  计算机应用与软件. 2011(04)
[10]基于双向匹配法和特征选择算法的中文分词技术研究[J]. 麦范金,李东普,岳晓光.  昆明理工大学学报(自然科学版). 2011(01)



本文编号:3730897

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3730897.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f4f6f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]