当前位置:主页 > 社科论文 > 图书档案论文 >

汉语中介语文本词语级错误的自动查错研究及其实现—AECIT

发布时间:2023-06-01 20:49
  随着现代出版事业的不断扩大,人工校对的工作量日益增大,产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的研究领域,它的目的主要是在出版行业中减轻校对人员的工作量。中文文本自动校对较英文文本自动校对而言有许多先天性的困难,如分词、词性标记等。 中介语文本由于它的特殊性,无论是从错误产生原因还是错误表现形式都呈现出较普通文本未有的复杂。现有的自动校对系统是面向普通的中文文本,它处理的是母语为汉语的人士所写成的中文文本,它们所使用的训练语料和测试语料是同质的。本文研究的对象是母语为非汉语的人士写成的中文中介语文本。二者相比较而言,后者较前者在研究、处理上多了很多困难,如:训练语料和测试语料不同质,错误种类繁多,难以进行分类等。本文使用了新疆大学预科部少数民族中介语语料库,随机抽取了2063个存在错误的句子,以查找句子中的错误点为目标,构造了汉语中介语自动查错系统AECIT(Automatic Error Checker for Interlanguage Texts),采用窗口移动的方式,一次读取一个三元词串,以二元词的互信息为基本统计手段,结合词性和确定合理搭配阈值进行隔断的方式...

【文章页数】:38 页

【学位级别】:硕士

【文章目录】:
中文摘要
英文摘要
第一章 中介语文本自动查错研究综述
    1.1 选题来源
    1.2 本研究的研究目标和内容
    1.3 研究意义
    1.4 文本自动校对
    1.5 自动校对技术国外研究现状
    1.6 自动校对技术国内研究现状
    1.7 目前已有的中文文本校对系统:黑马校对系统
    1.8 作文自动评分
    1.9 研究现状总结
    1.10 本文使用的语料
第二章 中介语文本的错误分类和训练语料分析
    2.1 中文普通文本自动校对中的错误分类
    2.2 中介语文本中的错误
    2.3 中介语文本中错误的定义
    2.4 语料分析
第三章 中介语文本字词级查错系统——AECIT
    3.1 训练模块
    3.2 目前中文文本自动校对中的查错技术及分析
    3.3 查错模块
    3.4 系统评测模块
第四章 查错系统的测试和分析
    4.1 查错结果
    4.2 查错系统实例及其分析
    4.3 结合对外汉语教学的需要
    4.4 未来工作展望
参考文献
致谢



本文编号:3827028

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3827028.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户001cd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com