面向自动语法检查的依存规则研究

发布时间:2024-01-19 16:06
  链语法是一套用计算机分析自然语言句法结构的形式化模型,由词典和算法两部分构成:词典记录每个词条的句法链接方式,算法利用词典分析句子中各单词的链接组合,符合语法的句子会构成一个完整的链条。链语法分析器可以用来自动检测英语书面语的语法错误,但由于其词典依靠人工编写,存在以下两点不足:(1)词典编写依靠编纂者的主观判断,缺乏系统性;(2)词典中单词链接规则的描写不全面,无法检测出某些主谓不一致类、动词+介词类和动词+动词补语类语法错误。本研究旨在通过数据驱动的方法从依存树库中自动提取链语法词典,改善上述链语法词典的缺陷,提高英语学习者书面语语法错误自动检测的准确率。 本研究以库容为100万词的宾州英语树库作为训练语料,通过以下三个步骤重建链语法词典:(1)将宾州英语短语结构树库转换为依存树库;(2)完善现有依存树库标注体系,并按该体系调整和细化宾州英语依存树库中的依存关系;(3)从依存树库中提取链语法词典,使用中国英语学习者语料库中的504例错误例句作为测试集,检验新建词典在自动语法检查时的准确率、召回率和F值。 研究结果表明利用依存树库构建的链语法词典避免了人工编写词典缺乏系统性的弊端;从...

【文章页数】:205 页

【学位级别】:博士

【文章目录】:
致谢
摘要
Abstract
目录
图目
表目
缩略语表
绪论
    0.1 研究背景
    0.2 研究意义
    0.3 研究概述
        0.3.1 研究目的
        0.3.2 研究问题
        0.3.3 研究步骤
        0.3.4 关键术语
    0.4 论文结构
第一章 自动语法检查的基本原理及相关研究
    1.1 人工编写规则的自动语法检查
        1.1.1 基本原理
            1.1.1.1 基于PSG的句法分析
            1.1.1.2 基于特征结构的句法分析
            1.1.1.3 基于词汇的句法分析
        1.1.2 相关研究
            1.1.2.1 基于APSG的自动语法检查
            1.1.2.2 基于HPSG的自动语法检查
            1.1.2.3 基于链语法的自动语法检查
    1.2 数据驱动的自动语法检查
        1.2.1 基本原理
            1.2.1.1 N元语法模型
            1.2.1.2 自动分类模型
            1.2.1.3 句法分析模型
        1.2.2 相关研究
            1.2.2.1 基于N元语法模型的自动语法检查
            1.2.2.2 基于自动分类模型的自动语法检查
            1.2.2.3 基于句法分析模型的自动语法检查
    1.3 小结
        1.3.1 文献评价
        1.3.2 研究设想
第二章 依存语法
    2.1 理论语言学视角下的依存语法
        2.1.1 关联理论
        2.1.2 功能生成语法理论
        2.1.3 意义-文本理论
        2.1.4 词语法理论
    2.2 计算语言学视角下的依存语法
        2.2.1 依存语法的形式化
        2.2.2 依存关系的自动分析
            2.2.2.1 基于CKY算法的句法分析
            2.2.2.2 基于移进-规约算法的句法分析
            2.2.2.3 基于自顶向下算法的句法分析
            2.2.2.4 依存关系自动分析算法对比
    2.3 依存树库
        2.3.1 依存树库的标注体系和方法
        2.3.2 依存树库的存储和检索
    2.4 小结
        2.4.1 文献评价
        2.4.2 研究设想
第三章 链语法
    3.1 链语法词典
        3.1.1 词条
        3.1.2 链接子表达式
            3.1.2.1 链接子
            3.1.2.2 逻辑操作符
            3.1.2.3 宏
    3.2 链语法算法
        3.2.1 链接子匹配
        3.2.2 空链接机制
        3.2.3 后处理机制
        3.2.4 排序机制
    3.3 小结
        3.3.1 文献评价
        3.3.2 研究设想
第四章 研究方法
    4.1 具体研究步骤
    4.2 研究工具
        4.2.1 树库转换工具
        4.2.2 树库检索工具
        4.2.3 自编程序
    4.3 训练语料及其格式转换
        4.3.1 原始训练语料
            4.3.1.1 PTB短语结构树库的标注方法
            4.3.1.2 PTB短语结构树库的标注体系
            4.3.1.3 PTB短语结构树库的存储
        4.3.2 训练语料格式的转换
        4.3.3 转换后的训练语料
            4.3.3.1 PTB依存树库的标注体系
            4.3.3.2 PTB依存树库的存储
            4.3.3.3 PTB依存树库的统计信息
            4.3.3.4 依存关系的修改
    4.4 测试语料及其预处理
        4.4.1 测试语料的抽样
        4.4.2 测试语料的预处理
    4.5 小结
第五章 依存关系的修改
    5.1 修改依存关系的理论基础
        5.1.1 “助动词+动词”结构
        5.1.2 “介词+名词”结构
        5.1.3 动词不定式结构
        5.1.4 疑问句和定语从句结构
        5.1.5 并列结构
    5.2 调整依存关系的中心词
        5.2.1 punct类依存关系
        5.2.2 mwe类依存关系
        5.2.3 cop类依存关系
        5.2.4 aux类依存关系
    5.3 细化依存关系的类别
        5.3.1 advcl类依存关系
        5.3.2 ccomp类依存关系
        5.3.3 xcomp类依存关系
        5.3.4 aux类依存关系
        5.3.5 nsubj类依存关系
        5.3.6 det类依存关系
        5.3.7 prep类依存关系
        5.3.8 advmod类依存关系
        5.3.9 cc & conj类依存关系
        5.3.10 rcmod类依存关系
    5.4 dep类依存关系和错误标注
        5.4.1 dep类依存关系
        5.4.2 错误标注
    5.5 小结
第六章 链语法词典的构建和测试
    6.1 链语法词典的构建
        6.1.1 链语法词典的提取和合并
        6.1.2 稀疏数据的处理
            6.1.2.1 产生稀疏数据的原因
            6.1.2.2 解决稀疏数据的方法
        6.1.3 新建链语法词典与原词典的区别
    6.2 新建链语法词典的测试
        6.2.1 测试工具
        6.2.2 测试方法
            6.2.2.1 准确率、召回率和F值的计算
            6.2.2.2 后处理
        6.2.3 测试结果
            6.2.3.1 新建词典和原词典的评测结果对比
            6.2.3.2 新建词典的漏判与误判分析
    6.3 小结
第七章 结论
    7.1 主要贡献
    7.2 研究不足和后续研究计划
参考文献
附录



本文编号:3880097

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/3880097.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户fdd15***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]