山西朔州方言语音识别方法研究

发布时间：2024-03-05 06:25

　　语音作为人机交互的最重要的手段和研究形势之一,随着科学技术的发展,自动语音识别(Automatic Speech Recognition,ASR)已经应用于日常生活之中。但目前山西朔州的语音识别系统大多为普通话识别,各地方言用户只有以近似标准的普通话发音才能得到较好的识别结果。加之方言语音语料数据采集成本高,仅有少量的资源可用于研究。在低资源条件下的语音识别相关系统识别率低。所以为满足大众的交互需求和实现高识别率,针对山西朔州方言的研究与应用就显得十分必要。在此背景下,本文一方面对现有的模型进进行对比,另一方面对低资源数据进行整理,从而提高山西朔州方言的语音识别系统识别率。首先,本文对语音识别的发展史和基本原理进行了简要的介绍,随后对语音识别从模拟信号的处理到声学模型的构建以及识别等每一项关键技术进行了阐述。之后,对声学模型和语言模型进行着重研究,包括:高斯混合模型和隐马尔可夫模型(GMM-HMM)、基于深度学习的神经网络模型(DNN-HMM)以及N-gram等模型。最后,本文对山西朔州方言的语言特征、低资源和小区域进行了分析研究,对各个模型下山西朔州方言的识别进行了对比实验。本文共搭...

【文章页数】：69 页

【学位级别】：硕士

【部分图文】：

图1-1语音识别系统基本框架

中北大学学位论文41.3语音识别系统的框架简单来说，语音识别就是将一段音频例如一条语音，一段电话，通过目前已有的一系列技术操作，将语音序列识别为对应的单词或者汉字。目前基于统计的模式识别是一种主流方法。给定观察序列O={1,2,…,},然后采用MAP求解最优序列:)|(maxar....

图1-2方言下的语音识别框架图

中北大学学位论文7通话的语音识别对方言识别率较低，人机交互低，对工作的效率影响较大，因此本文研究方言识别用于地方语音识别来提高人机交互性能。图1-2方言下的语音识别框架图Fig1-2Dialectspeechrecognitionframework1.6论文主要研究内容和工作安排....

图2-2预加重之后对比图

中北大学学位论文102.1.2语音信号中的预加重通过研究分析人体发音器官及语音信号可知，由于受到声门激励和口鼻辐射的影响，单位频带内的语音信号功率，将会从800HZ以上的高频段信号按6dB/倍频程跌落[23]，因此需要预加重处理。在语音信号数字化处理之后，使用一阶数字滤波器实现[....

图2-3三个窗口图

中北大学学位论文11深入研究语音分析，所以假设这个短时平稳信号存在。分帧是为了能让语音信号可以通过使用稳定的信号处理办法。为了得到短时的语音信号，就需要进行加窗操作，加窗操作也可以防止频域的泄露。将窗函数的宽度定义为语音的帧长。窗函数每在语音信号中滑动一截，语音信号就分为一帧，重....

本文编号：3919822

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3919822.html

上一篇：引进版日本文学类图书出版研究
下一篇：没有了