当前位置:主页 > 文艺论文 > 汉语言论文 >

基于对偶学习的西里尔蒙古语-汉语机器翻译研究

发布时间:2024-03-06 23:37
  目前,基于端到端的神经机器翻译(NMT)在大语种上取得了显著的效果,已经成为学术界非常流行的方法,然而该模型的训练严重依赖平行语料库的大小,通常需要上百万句,而西里尔蒙古语和汉语之间的平行语料库严重匮乏,并且人工构建代价昂贵。因此,提出基于对偶学习的西里尔蒙汉互译方法。为了缓解因未登录词导致的译文质量不高的问题,采用BPE(Byte Pair Encoding)技术对语料进行预处理。将通过单语数据预训练的语言模型和20%的平行双语数据预训练的翻译模型作为该模型训练的初始状态。以NMT为基线系统,实验结果表明,该方法达到了与NMT使用西里尔蒙汉全部双语数据相当的效果,有效缓解了因未登录词较多和平行语料库匮乏导致的译文质量不高的问题。

【文章页数】:7 页

【部分图文】:

图1编码器解码器架构图

图1编码器解码器架构图

端到端的神经机器翻译框架已经成为神经机器翻译中非常经典的框架,其包括编码器和解码器,所以也叫作编码器解码器框架(Encoder-Decoder),其结构如图1所示。该模型的基本思想是:当给定一个源语言句子时,编码器会将其编码为维数固定的向量,解码器根据此向量将其转化为目标语言句子....


图2LSTM隐藏层结构图

图2LSTM隐藏层结构图

编码器中的LSTM网络将输入的源语言句子x=(x1,x2,…,xI)进行编码,用在西里尔蒙古语和汉语的翻译中就是将西里尔蒙古语句子进行编码,并计算出隐层状态(h1,h2,…,hI)。在计算隐层状态时,LSTM的输入门、遗忘门和输出门,分别用:ii、fi和Oj表示,其结构如图2所示....


图3经过BPE技术处理的西里尔蒙文

图3经过BPE技术处理的西里尔蒙文

本文首先使用BPE技术对通过网络爬虫爬取的84835句对西里尔蒙汉平行语料中的西里尔蒙古文和67288句西里尔蒙文单语数据进行处理。得到的处理后的结果如图3所示。然后将经过Jieba分词处理的84835句对西里尔蒙汉平行语料中的汉语和67288句汉语单语数据进行处理。得到....


图4经过Jieba分词和BPE技术处理的汉语

图4经过Jieba分词和BPE技术处理的汉语

然后将经过Jieba分词处理的84835句对西里尔蒙汉平行语料中的汉语和67288句汉语单语数据进行处理。得到的分词结果如图4所示。1.3对偶学习



本文编号:3921048

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3921048.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户96004***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]