贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究

发布时间:2024-04-24 03:05
  随着深度学习在自然语言处理研究中取得突破性进展,机器翻译技术也发生了革命性的变化,被广泛应用于人们的生活和工作中。我国作为一个统一的多民族国家,党和政府高度重视少数民族自然语言处理。近年来,我国少数民族自然语言处理相关技术蓬勃发展,尤其是藏语自然语言处理,更是随着科学技术的发展不断地在进步。不论基于统计还是基于神经网络的机器翻译方法,都需要具备大规模的双语或多语语言数据资源作为支撑,对于藏语相关的藏语自然语言处理研究而言,依然存在着数据资源稀缺、理论基础薄弱和技术方法不够成熟等问题,本文希望通过藏汉语言数据资源构建、单语语言模型融合、迭代式回译策略的应用以及跨语言模型预训练等理论和方法的研究,为贫语言资源条件下的藏汉机器翻译提供一个有效的研究思路,同时缓解目前藏汉机器翻译中资源稀缺、翻译性能不理想等问题,为藏区经济社会发展提供语言互译的技术支撑。本文的主要工作和创新点总结如下:针对藏汉语言数据资源匮乏问题,本文提出了一种面向藏汉机器翻译的语言资源构建技术,并构建了一个基于人民日报(藏文版)的藏、汉单语语料库和藏汉双语平行语料库。本文首先使用基于Web的大规模资源获取技术收集藏语单语新闻...

【文章页数】:131 页

【学位级别】:博士

【部分图文】:

图1-1藏族分布地图

图1-1藏族分布地图

青海师范大学博士学位论文2较大的障碍。国内现有藏族约600万人口,分布在西藏、四川、青海、甘肃、云南五省区,约占国土面积的1/4,如图1-1所示,使用藏文、藏语的人口同时也分布在尼泊尔、不丹、锡金和巴基斯坦等国家和地区。随着社会经济的不断发展,藏族与各民族之间的交流越来越频繁,但....


图1-2研究内容之间的逻辑关系图

图1-2研究内容之间的逻辑关系图

贫语言资源条件下藏汉(汉藏)机器翻译关键技术研究5构建了一个贫资源条件下的基于迭代式回译策略的藏汉神经网络机器翻译系统,为贫资源条件下的藏汉机器翻译提供一个新的研究思路。第四,针对藏汉平行数据资源领域和规模受限,对监督式神经网络机器翻译模型适应性较差的问题,提出了一种跨语言模型建....


图1-3章节关系图

图1-3章节关系图

青海师范大学博士学位论文6通过基于web的大规模语言资源获取技术研究、基于神经网络的藏文分词研究、基于神经网络的藏文命名实体识别研究和基于神经网络的藏汉跨语言对齐研究,构建了一个基于人民日报(藏文版)的面向贫资源条件下的藏汉神经网络机器翻译的藏汉双语平行语言资源库,解决了藏文分词....


图2-5LSTM示意图

图2-5LSTM示意图

青海师范大学博士学位论文24图2-5LSTM示意图在图2-5中,Xt-1,Xt,Xt+1分别表示前一时刻的输入、当前输入和后一时刻的输入,ht-1,ht,ht+1分别表示前一时刻的输出、当前输出和后一时刻的输出,A表示每一层的网络构架,其中⊕表示加权求和,表示矩阵相乘,在LSTM....



本文编号:3963136

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3963136.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户df5a0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]