古汉语自动句读与分词研究

发布时间:2023-05-31 21:43
  古汉语与现代汉语有很大区别,古汉语研究直接套用现代汉语成果并不可行。目前的古汉语现有研究使用的方法相对陈旧。随着深度学习技术的飞速发展,特别是基于海量文本的预训练模型的出现,深度模型在许多现代汉语的自然语言处理任务上的表现都获得巨大的提升。本文的工作试图让古汉语处理领域跟上时代发展。本文在这方面所做的第一项工作就是收集并清洗近4亿字来自互联网上的古汉语语料,并在此基础上完成了古汉语的BERT预训练模型。这是在古汉语研究领域内预训练方法的首次尝试和突破。随后本文以此模型为基础试图解决古汉语研究中的两项关键性基础问题——句读与分词问题。断句及标点任务,也称为句读,是将连续的汉字字符串中添加断开标记或标点符号,使之成为更容易阅读的合理句子。之前学者已经使用过规则方法、传统机器学习方法以及深度学习的序列切割方法,但是普遍存在数据基础薄弱,泛化能力不足等问题。古汉语分词问题与现代汉语分词任务定义相同,但是缺乏现代汉语的大量分词标记语料。既往研究只在极小的领域内进行过尝试,如果打算用在具有上下三千年历史且文体风格各异的古文上,无疑开销巨大,或许将是不可完成的任务。在断句及标点任务上,本文使用BER...

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 引言
    1.1 研究背景
    1.2 研究意义
    1.3 句读与分词问题定义
    1.4 本文工作
    1.5 本文结构
    1.6 本章小结
第二章 文献综述
    2.1 预训练模型
        2.1.1 文本的数字化表示
        2.1.2 BERT预训练模型
    2.2 自动句读研究综述
        2.2.1 基于规则的自动句读方法
        2.2.2 基于统计的自动句读方法
    2.3 自动分词研究综述
        2.3.1 基于词表的分词方法
        2.3.2 基于统计的分词方法
    2.4 无指导分词
        2.4.1 无指导分词综述
        2.4.2 层次迪利克雷过程
        2.4.3 贝叶斯隐马尔可夫模型
        2.4.4 联合概率模型
    2.5 本章小结
第三章 古汉语BERT预训练模型
    3.1 预训练语料的预处理
    3.2 语料转化为预训练数据
    3.3 实验设备与训练结果
    3.4 序列标注任务中的应用
    3.5 本章小结
第四章 自动句读任务
    4.1 语料选择
    4.2 标注集选择
    4.3 模型设计
    4.4 评价标准
    4.5 实验结果与分析
        4.5.1 断句任务结果
        4.5.2 标点任务结果
    4.6 实际应用
        4.6.1 篇章断句参数选择
        4.6.2 滑动窗口式自动断句演示
        4.6.3 标点结果展示
    4.7 本章小结
第五章 自动分词任务
    5.1 语料选择
    5.2 模型设计
    5.3 评价标准
    5.4 实验结果与分析
        5.4.1 无指导分词结果
        5.4.2 弱指导与有指导分词
    5.5 泛化能力测试
        5.5.1 对比模型
        5.5.2 结果对比与分析
    5.6 实际应用结果
    5.7 本章小结
第六章 总结与展望
参考文献
附录A 部分殆知阁语料分词词表
致谢



本文编号:3826056

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/zaizhiboshi/3826056.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户77b60***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]