当前位置:主页 > 科技论文 > 自动化论文 >

基于生成对抗网络的中文语言模型数据增强技术

发布时间:2024-04-21 03:36
  中文语言模型是一种用于表达中文词序列的概率分布的数学模型,是语音识别系统的关键技术之一,其优劣程度直接影响系统整体性能。由于高质量的中文数据集的稀缺,以及实际自然语言场景中中文词汇组合形式上的多样性,训练出来的中文语言模型常常会出现数据稀疏问题。针对此种现象,一般采用两种解决办法:一种是对用来训练的文本语料进行扩增,即数据增强,另一种是针对用来训练的文本语料的数据分布,改进其平滑算法。然而由于一些算法本身的局限性和存在的缺点,目前较多研究是对训练语料进行数据增强来提高语言模型的性能。针对上述中文语言模型数据稀疏问题,本文提出了一种改进的基于生成对抗网络的文本复述模型来扩增中文文本语料,训练新的语言模型来改善数据稀疏问题,采用分层长短期记忆网络和多级奖励方法增强了对长文本序列的处理能力以及对生成的多样化文本序列的区分能力。实验表明该模型能够较好地的处理中文长文本序列,并能对文本序列输出具有区分度的奖励,解决了常见分类模型判别器反馈信息不足的问题。同时,利用文本复述对原始数据做数据增强,并使用改进的生成对抗网络模型生成的采样数据和原始数据分别训练不同的语言模型,将训练好的两个语言模型进行插...

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

图1-1语音识别系统模块图

图1-1语音识别系统模块图

语音是人们日常生活交流的主要途径。来,随着计算机硬件的发展,硬件算力得到极大提升,员可以得到很复杂的模型,也能解决更为复杂的问题,越高,科学家们追求使机器像人类一样,可以说话、可到来遥遥无期,但是目前机器的智能化程度相比几十特别是近年深度学习的应用发展,使得人机的交互方式技术广泛....


图2-1词分类算法流程图

图2-1词分类算法流程图

-12-图2-1词分类算法流程图网络nitestatenetwork,FSN)是一种常用的于基于规则的语音识别系统。言,转录实际应用场景下的录音得到orpus,RC),基于FSN句法规则进需要的句法规则,并使用程序生成语语料RC来增强FSN语料,使用语料和参考语....


图2-2RNN的链接结构

图2-2RNN的链接结构

记为kW,则原始训练语料TC中需要添加kW的次数为:(),,kkRCkTCNumberppTC(第k个关键词需复制语料SC的次数为:,kkkSCNumberRf(2之后,选择语料SC的复制比为:max1kRRkK....


图2-3LSTM单元结构图

图2-3LSTM单元结构图

哈尔滨工业大学工程硕士学位论文-2所示,RNN是重复的链式形式,原始RNN中,重复模块有一个tanh层。LSTM具有同样的链式结构,但是重复的模块内部的结构M中的重复模块包含四个交互的层,如图2-3所示:态C是LSTM的关键,图2-3上方的水平线....



本文编号:3960358

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3960358.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户de58d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]