当前位置:主页 > 文艺论文 > 汉语言论文 >

古汉语分词与词性标注方法研究

发布时间:2022-12-05 04:35
  近年来,现代汉语的分词与词性标注研究已经取得了比较丰硕的成果,而古汉语方面的研究仍然存在不足。古汉语中的词多以单音词为主,模型判别出复音词进行切分和标注是提高分词与词性标注系统性能的重点。除此之外,古汉语的词用法比较灵活,有很多兼类词以及词类活用,即多数序列在不同语境具有不同的切分或同一个词在不同语境具有不同的词性。目前古汉语的分词与词性标注研究大多基于条件随机场模型,虽然可以取得较好的分词性能,但这种方法需要人工制定特征模板,并且受特征窗口的限制模型不能更好的学习长距离的上下文特征。随着神经网络的发展,深度学习方法在处理序列数据任务中表现出强大的性能,它可以高效的抽取序列数据的特征,目前该特征工程的方法应用于语音识别、文本生成等,均取得了良好的效果。尝试采用深度学习的方法自动抽取古汉语长距离上下文信息,以解决原用于古汉语分词和词性标注的方法需要人工制定经验主义的特征模板的问题,这对古汉语分词与词性标注的研究具有重要意义。针对上述问题,通过分析古汉语的词类、活用现象以及兼类词,制定符合古汉语特点的词性标记集,词性标记集是词性标注阶段语料标签的标准。基于分布式假说理论,在语义理解层面上实... 

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
引言
第1章 绪论
    1.1 背景及意义
    1.2 研究现状
        1.2.1 分词
        1.2.2 词性标注
    1.3 古汉语分词与词性标注存在的不足
    1.4 研究内容
    1.5 技术路线和实验方案
    1.6 文章组织结构
第2章 古汉语分析
    2.1 术语及词类概述
    2.2 古汉语复音词构词特点
        2.2.1 构成新义
        2.2.2 并列复合
        2.2.3 偏正复合
        2.2.4 偏指复合
        2.2.5 特指和泛指
        2.2.6 单纯复音词
    2.3 古汉语中的活用和兼词
        2.3.1 词类活用
        2.3.2 兼类词
    2.4 词性及词性标记集
    2.5 本章小结
第3章 深度学习与分布式表示
    3.1 深度学习
    3.2 循环神经网络
        3.2.1 传统RNN
        3.2.2 双向RNN
    3.3 长短时记忆网络
        3.3.1 LSTM
        3.3.2 BILSTM
    3.4 超参数选择
    3.5 分布式表示
    3.6 本章小结
第4章 古汉语分词与词性标注通用模型构建
    4.1 模型总体结构
        4.1.1 嵌入层
        4.1.2 神经网络层
        4.1.3 标签判别层
    4.2 模型训练步骤
    4.3 通用性说明
    4.4 模型应用流程
    4.5 本章小结
第5章 基于模型的分词和词性标注
    5.1 分词
        5.1.1 标记方案
        5.1.2 训练语料
        5.1.3 字嵌入
        5.1.4 神经网络层
        5.1.5 超参数设置
    5.2 词性标注
        5.2.1 标记方案
        5.2.2 训练语料
        5.2.3 词嵌入
        5.2.4 神经网络层
        5.2.5 超参数设置
    5.3 本章小结
第6章 实验结果分析
    6.1 模型测评标准
    6.2 Dropout选择实验
    6.3 古汉语分词任务模型测评
    6.4 古汉语词性标注模型测评
    6.5 本章小结
结论
参考文献
致谢
导师简介
作者简介
学位论文数据集


【参考文献】:
期刊论文
[1]基于向量空间模型的知识点与试题自动关联方法[J]. 董奥根,刘茂福,黄革新,舒琦赟.  计算机与现代化. 2015(10)
[2]基于词向量特征的循环神经网络语言模型[J]. 张剑,屈丹,李真.  模式识别与人工智能. 2015(04)
[3]基于HMM的楚辞自动分词标注研究[J]. 钱智勇,周建忠,童国平,苏新宁.  图书情报工作. 2014(04)
[4]上古汉语分词及词性标注语料库的构建——以《淮南子》为范例[J]. 留金腾,宋彦,夏飞.  中文信息学报. 2013(06)
[5]语言技术平台[J]. 刘挺,车万翔,李正华.  中文信息学报. 2011(06)
[6]基于条件随机场的无监督中文词性标注[J]. 孙静,李军辉,周国栋.  计算机应用与软件. 2011(04)
[7]试论兼词与合音词[J]. 李春玲.  青海师范大学学报(哲学社会科学版). 2011(02)
[8]信息处理用藏文分词单位研究[J]. 关白.  中文信息学报. 2010(03)
[9]从自动分词角度看先秦与现代汉语词汇区别[J]. 徐紫云,徐雪松.  华东交通大学学报. 2009(06)
[10]基于字位置概率特征的条件随机场中文分词方法[J]. 沈勤中,周国栋,朱巧明,孔芳,丁金涛.  苏州大学学报(自然科学版). 2008(03)

博士论文
[1]藏语分词与词性标注研究[D]. 康才畯.上海师范大学 2014
[2]朱熹训诂研究[D]. 贾璐.复旦大学 2011

硕士论文
[1]激活函数导向的RNN算法优化[D]. 张尧.浙江大学 2017
[2]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[3]《说文解字》的义训研究[D]. 张请.云南大学 2014
[4]以《汉书》为例的中古汉语自动分词[D]. 王嘉灵.南京师范大学 2014
[5]元代汉语词汇史新词研究[D]. 魏巍.山东大学 2010
[6]基于条件随机场的自动分词技术的研究[D]. 陈晴.东北大学 2005



本文编号:3709691

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3709691.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户0ed4a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]