当前位置:主页 > 科技论文 > 信息工程论文 >

非平行文本条件下基于i-vector、VAE和GAN的多对多语音转换算法研究

发布时间:2024-03-10 15:02
  语音转换是一种将源语音中的说话人身份转换为目标说话人身份,同时保留源语音语义信息的技术。作为一门交叉性较强的学科,语音转换技术目前已经在文语转换、通信保密、多媒体应用、医疗辅助和语言翻译等方面得到了重要应用,并且在其他领域展现出了广泛的应用前景。目前语音转换模型主要存在两个问题:一方面是转换后语音的个性相似度不高,另一方面则是转换后语音的音质不够理想。本文重点研究了基于变分自编码器和生成对抗网络的语音转换模型,并且针对上述两个问题进行了相应的探讨与改进。首先,为了实现更好的说话人个性相似度的语音转换,本文将身份向量i-vector应用在基于变分自编码器和生成对抗网络的语音转换模型中,利用i-vector可以表征说话人个性特征的特性提升了转换后语音的个性相似度。经主观和客观评价表明,本文提出的方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了3.22%,平均MOS值提升了2.63%,平均ABX值提升了7.35%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。其次,为了实现更好音质的语音转换,本文利用生成性能更好的相对生成对抗网络改进了基于变分自编...

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

图2.1发声器官分区示意图

图2.1发声器官分区示意图

信号模型又是以发声系统的声学原理为基础而建立首先要对发声系统有一定的了解。本章主要介绍了析了语音转换的基本原理、语音信号的频谱转换和价标准。生机制的生理机制动产生的声波,其最低频率为50Hz,最高频率为带产生声波,经声道发生共鸣,再经口唇辐射,从音,这就是语音。该过程由肺、气管....


图3.1VAE模型结构原理图

图3.1VAE模型结构原理图

图3.1VAE模型结构原理图去逼近真实的后验概率上,KL散度常用来求两个分布间,为了使与的K:(|)(|)))[log(|)log(|)=[log(|)log(|)qzxqzxEqzxpzxEqz....


图4.6SF3-TM1转换情形下不同系统转换语音的语谱图

图4.6SF3-TM1转换情形下不同系统转换语音的语谱图

换语音与源语音、目标语音的语谱图对比。从图4.6可以看出,VAWGAN模型AWGAN+i-vector模型的语谱图和源语音的语谱图差别较大,VAWGAN+i-vector模型的转音的语谱图比VAWGAN模型的转换语音的语谱图更接近目标语音的语谱图,说AWGAN+i-....



本文编号:3924975

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3924975.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户c6816***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]