基于基音同步叠加方法的汉语语音合成处理研究

发布时间：2015-05-06 09:26

【摘要】语音合成是语音信号处理的一个重要分支,经过长时间的发展,语音合成的方法日渐增多。其中,基音同步叠加算法(Pitch Synchronous OverLap-and-Add)自从被提出来后就在语音合成领域有了比较广泛的应用。与简单的波形拼接不一样,这种算法可以进行韵律的调节,比如基频、时长等。这样合成的语音在自然度上有所提高。目前,基音同步叠加算法使用的语音库都是一些自然语音。在语音合成中可以让合成的结果保留原发音的一些特征,使合成的语音不再生硬,带有个人音质特征。不过,这种语音库包含了大量的自然语音,语音库的容量很大。同时,语音合成中基音周期估算的准确性非常重要,影响着合成的效果。传统的估算方法主要是自相关函数法、平均幅度差函数法等,它们在基音的判断上会出现一定的误判。本文针对语音库容量的这个问题,提出了声母韵母合成,这样就减少了库容量。在基音周期估算方面,则把自相关函数法与平均幅度差函数法结合起来,使基音周期的估算结果更加明显,减少判断上的失误。文中还对一段语音进行了韵律方面的调节,实现了基频、时长调节,体现了基音同步叠加算法的韵律处理能力。本文的实验结果表明,声母韵母合成的效果不错,人们能够清楚的听出合成的音节。在基音周期估算方面,从波形可以看出两个算法结合后,波峰的表现更加明显,误判减少。在一段语音的处理中,从实验结果可以看出,该算法在韵律调节方面已经比较熟练,能取得较好的效果。

【关键词】语音合成；基音同步叠加算法；基音周期；韵律调节；声母韵母合成；

第一章绪论

1.1汉语语音合成处理
人们通过语言来交流沟通，语言的表现形式即是语音⑴，语音使人类信息的交流变得有效直接顺畅。同时，语音也是人们感情交流的主要方式。伴随着科学技术的日益发展以及各种智能设备的广泛使用,人工智能、语言学、计算机科学、数字信号处理等不同学科被融合一体，形成了语音信号处理这门技术，而语音识别和语音合成便是这门学科中人们重点研究的领域。通过人工技术合成人类的语音被称作语音合成[3]，实现语音合成的方式可以是硬件，也可以是软件。语音合成的最终目的是让计算机或者智能设备能够发出语音，此语音须具备清晰、自然、能理解等特点。作为涉猎语言学、计算机科学、声学等多个学科的领先技术，语音合成技术己经拥有两百多年的研究历史[4]，不过真正具有实际意义的语音合成技术是从近代才发展起来的，主要是伴随着数字信号处理和计算机科学技术的脚步而前进的。语音合成技术的迅猛发展得益于现代信息产业的快速发展，它逐步适应高科技社会现代人们对智能设备的需求[5]。自1930年一个用键盘操作的声音编码器在贝尔实验室诞生到1968年第一个完整的TTS[6_7]语音合成系统的形成，语音合成技术在技术和方法经历了各种各样的改进。在语音合成技术的发展进程中[8]，早期的研究普遍是采用参数合成方法。随着计算机技术的发展，后来又出现了波形拼接的合成方法。我国的汉语语音合成技术起步比较晚，经过不懈努力，我国在八十年代初期取得了和国际语音研究同步发展的成绩，主要经历了参数合成、规则合成和波形拼接合成三个阶段[9]。其中最普遍被研究应用的是共振峰合成、线性规则合成和基音同步叠加技术[15-17]。
…………

1.2论文章节安排
本文的总体结构安排如下所示：
第一章介绍课题研究历史背景。
第二章对语音信号的基础知识进行了介绍，主要是对语音的发声原理、语音的韵律声调以及语音合成的方法进行了讨论。通过对语音的基础知识讲解，让人能够更加清晰了解语音合成。
第三章主要介绍了基音同步叠加算法的原理。在原理的介绍过程中，我们看到基音周期计算的准确性影响着整个合成过程，为下一章基因周期的计算做了铺塾。
第四章分为三个部分，即声母韵母合成、基音周期的估算及语音段的韵律处理研究。针对语音库容量大的情况，本文提出了声韵合成。该算法在基音同步叠加的算法上有所改进，主要是针对独音的处理。传统的基音周期估算方法得到的结果并不是很明显，容易出现误判。因此，本文把两种常用的算法结合起来，是估算的结果更加清晰明了，减少误判的几率。而在对语音段的韵律处理方面，运用了短时平均能量法来区分清独音，并分别对语音的基频、时长进行了调节。第五章回顾和总结本文主要内容，并对论文中存在的不足作进一步展望。
………..

第二章语音学基础概要

2.1汉语的发音机理
从人们发出声音的生理情况来看，身体的各个发音器官互相作用导致声音的产生。而这一发声机理主要包括三个系统：声门下系统、喉系统及声门上系统。呼吸系统指的就是声门下系统，它作为人们语音发声的动力部门，为前期的发音提供动力，由横隔膜、肺和气管等构成；喉系统是声源的产生部门，主要是由喉头声带和声门等构成；声上门系统又被称作调音器官，它是由咽腔、口腔和鼻腔等构成，经由喉部的气流通过调音器官的作用便形成了音素。人们发出语音的过程：在发音的初期，经过肺部的作用把气流呼出，同时借助横膈膜和胸部的力量把气流从气管传输到喉部，通过声门和声道致使人的声带发生振动，从而产生声音。由于在发音的过程中，声道会产生收缩或者扩张等不同的形状改变，所以人们会发出不同的声音。因此，同样的一句话不同的人说出来声音是不同的，这个就是因为不同的人发声的生理器官不同的原因。根据激励方式的不同，语音又被人们分为三个类别：池音、清音和爆破音。当声门中有气流经过时，在张力的作用下，声带出现了张驰式的振动。于是，空气产生的脉冲就具有了准周期性。当声道得到这个空气脉冲的冲击就得到了池音。而假如在气流往外窜的过程中，在声道的某个地方发生收缩，导致空气以特别快的速度冲过收缩处，这样就产生了清音。爆破音就是当声道处于完全闭合状态，闭合后堆积的气压突然释放形成的。这三种声音的产生都与发声的生理机能有一定的联系，，因为声道和声门控制着人的发声状态，加上人与人之间声道声门的差别，所以人们发出的声音在很多方面都有不同之处。
………

2. 2汉语语音的基础组成单元
汉语语音有很多的方言，但是普通话是一种把北京语音作为标准的语言。汉语在发音上有种独特的魅力，有一字多音一字多义等现象。因此，同一字不同发音可以构建无数个词汇，而这些词汇整合又能形成表达不同意思的句子。汉语中可以表达意思的基础单位是音节，单音节就是一个字。辅音与元音合成一个字，元音是一个字的主角，而辅音则是不可缺少的配角。其实，元音都是独音，辅音则是其他的音。因为汉语语音的最基础单元是音节，音素是语音流的最小单元。因此，汉语的一大特征是音系简单。由于汉语的儿化音与轻重音比较明显，因此词语分开的很清晰，人们很容易感觉到表达的意境。汉语还有比较多的同音字，却没有明显的音联这方面的情况。汉语是如此博大精深，短语、词语、句子等单元构成的因素是有很多小的部分，下面将介绍这些因素。从韵律学的角度来看，人们在说话或者交谈时所发出的声音就是音素；而从音质的角度来看，音素是被语音划分出来的最小的线性单元。组成一个音节或者语音段落的最小基元就是音素。其实，音素是一种物理现象，它是真实存在的。在国际语言学的研究中，人类语言的音素和国际音标也存在相对应的关系。
………..

第三章基于基音同步叠加算法简介
3.1基音同步叠加算法的背景........ (18)
3. 2时域基音同步叠加算法的工作原理........(20)
3. 2.1基音同步分析与标记........ (20)
3. 2. 2基音同步修改 ........(21)
3. 2. 3基音同步叠加........ （21)
第四章基于基音同步帧的合成
4.1声韵合成 ........(23)
4.1.1声韵合成的基础单元........ （23)
4.1.2声韵合成........ (24)
4. 2基首周期估计和标记 ........（26)
4. 3基音同步叠加法对一段语音的处理........ (34)
4. 3.1清浊音的区分........ (35)
4. 3. 2基频调整........ (37)
4. 3. 3时长调整 ........(38)
4. 4本章总结........ (41)
第五章总结与展望

第四章基于基音同步帧的合成

4. 1声韵合成
语音合成的基本单元绝大多数是音节、词汇等等，这样语音库就比较大。而在语音合成中，语音基本单元是首要需要解决的问题。基元的选择至关重要，大的基元音质比较好，但是拼接有一定的难度，且音库比较大；小的基元音库小，拼接灵活，却在韵律调节方面比较繁杂。本文将进行声母韵母的合成[5G],实验结果显示不仅可以把语音库控制在较小的范围，而且合成音节的音质也不错。汉语拼音中有22个声母，由于声母的发音时长比较短，所以在语音发声中很难被察觉。但是声母又不能单独的发声，它的发声和韵母有一定的联系，同一个声母和不同韵母合成，声母中总是伴有韵母影响。因此，一个声母与不同韵母合成时，由于发音不同，合成语音在时域的过渡段波形是不一样的，可见在发音中声母与韵母是不可分割的。

基于基首问步置力口方法的汉语语音合成处理概述

………..

结论

基音同步叠加是语音合成领域比较有创造性的算法。通过多年的发展壮大，取得了一定的理论和应用成果。现已经发展为语音信号处理方面的一个大热点。理论上，人们从不同的角度出发已经对基音同步叠加算法有了比较深入的研究，也提出了其他的方式与该算法结合的实现算法。同时，伴随着现代科技的发展，语音合成在实际的应用中也有了比较明显的成绩。基音同步叠加算法作为新秀在语音合成的发展中的成果也是有目共睹的。本文旨在对基音同步叠加算法和应用做基础性的研究。首先，介绍语音学的基础知识，让我们对语言学有个基本的了解。然后，对传统的基音同步叠加算法的原理进行了分析，让我们看到这种方法存在着基音计算不准确的缺点。基于语音库大小的问题，本文通过实验对声母韵母进行了合成，实验结果很不错。针对基音周期计算精确性不高，我们提出了新的基音周期计算方法，这种方法有效的提高了语音合成的结果。同时在韵律调节方面，我们进行时长和基频的调节，让一段语音更有节奏感。理论分析和计算机仿真实验验证了基音周期计算的准确性、声韵合成的自然度以及语音韵律调节的有效性。
…………
参考文献（略）

本文编号：19364

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/19364.html

上一篇：通信工程管理系统的分析与设计研究
下一篇：网络环境下医学文献检索课的教学改革.pdf 全文

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|