农产品市场信息采集的语音识别鲁棒性方法研究

发布时间:2021-04-09 17:58

  当前语音识别的研究已取得了较为丰硕的成果,在安静环境下性能令人满意,逐渐被应用在诸多人机交互的场合。然而,由于噪声的存在,语音识别系统在实际环境下性能急剧下降,如何提高语音识别的噪声鲁棒性,逐渐成为近年来语音识别的研究热点。本文主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题,针对当前缺乏面向农产品市场信息采集领域的语音识别引擎,而通用领域的识别算法又不适合解决上述问题,分析环境的噪声特点,面向非特定人和中小规模词汇量的连续汉语普通话识别,训练声学模型,研究适用于该环境下的语音识别鲁棒性方法。本文主要研究的内容包括:(1)基于隐马尔科夫模型(HMM)框架建立了声学模型,利用自建的农产品市场信息语料库进行训练和测试HHM模型,基于HTK工具包建立了农产品价格语音识别基线系统。(2)在分析农产品市场信息采集环境的噪声特点的基础上,从模型空间和特征空间对系统采取了多种鲁棒性方法,包括:在声学模型的识别基元选取上,采用了一种扩展的三音素声韵母模型,有效的解决了音节内部和音节间的协同发音问题,大大提高了识别率;针对建模后三音子模型数量急剧增加问题,采用了决策树状态聚类方法,建立了一套二值问题规则集,并将语音学的专业知识融合进决策树,通过聚类减少了三音子模型的数量,有效地解决了训练数据不充分问题;鉴于倒谱均值归一化(CMN)方法在消除信道卷积噪声以及加性噪声方面的良好表现,在农产品市场信息语音识别系统中采用,有效缓解了信道噪声影响。(3)在信号空间,为了提高输入语音信号的信噪比,采用了谱减类算法进行语音增强,但谱减算法容易带来信道失真和“音乐”噪声。为了减少这种失真,提出了一种联合语音增强与特征补偿的鲁棒性方法,把倒谱均值方差归一化方法(CMVN)与谱减类算法进行了结合,二者互为补充。实验结果表明,联合后的算法能有效提高系统的识别率,特别是在低信噪比时效果更为明显。(4)在统计估计理论的框架下,研究了估计幅度与实际幅度的最小均方误差(MMSE)估计器以及对数最小均方误差(log MMSE)幅度估计器。在此基础上提出了一种联合MMSE以及log MMSE幅度估计与CMVN失真补偿的鲁棒性方法。不同农产品市场信息采集环境下的实验证明,该方法具有一定的噪声鲁棒性,多种空间算法的有机结合可以提供系统的鲁棒性,特别是在低信噪比时更为明显。本文的研究为语音识别在农产品市场信息采集环境中的应用建立了一套鲁棒性方法,为今后语音识别在农业信息采集领域的应用提供了借鉴。

【学位授予单位】:中国农业科学院

【学位级别】:博士

【学位授予年份】:2015
【分类号】:TN912.34
【目录】:

文章目录
摘要
Abstract
英文缩略表
第一章 引言
    1.1 问题的提出及研究意义
    1.2 语音识别概述
        1.2.1 语音识别的发展
        1.2.2 语音识别的分类
        1.2.3 基于统计模型的语音识别
    1.3 影响语音识别鲁棒性的因素
    1.4 语音识别及声学技术在农业领域的应用
        1.4.1 国外研究情况
        1.4.2 国内研究情况
    1.5 研究内容
    1.6 章节安排
    1.7 小结
第二章 噪声鲁棒性语音识别的研究现状
    2.1 噪声分类
        2.1.1 加性噪声与乘性噪声
        2.1.2 噪声特性分析
    2.2 噪声鲁棒性方法研究现状
        2.2.1 语音增强
        2.2.2 鲁棒性特征提取
        2.2.3 模型补偿
    2.3 小结
第三章 基于HMM框架的农产品价格语音识别
    3.1 HMM模型
        3.1.1 HMM的概述
        3.1.2 HMM的数学定义
        3.1.3 HMM的三个基本问题
    3.2 基于HTK的实验平台构建
        3.2.1 语音数据库
        3.2.2 MFCC特征提取
        3.2.3 声学模型的设置
        3.2.4 识别性能的评价标准
    3.3 小结
第四章 系统的三音子模型优化及特征规整
    4.1 扩展的声韵母建模基元
        4.1.1 汉语语音学特点
        4.1.2 汉语声母结构
        4.1.3 汉语韵母结构
        4.1.4 扩展的声韵母识别基元定义
    4.2 基于决策树的状态共享
        4.2.1 决策树的构造
        4.2.2 二值问题集的设计
        4.2.3 结点分裂准则
        4.2.4 结点停止分裂
        4.2.5 结点合并
    4.3 增加高斯混合分量
    4.4 倒谱特征归一化
    4.5 实验及分析
        4.5.1 实验一:三音子模型识别实验
        4.5.2 实验二:决策树状态聚类
        4.5.3 实验三:高斯混合分量增加
        4.5.4 实验四:倒谱均值方差(CMVN)归一化
    4.6 小结
第五章 联合谱减增强和失真补偿的鲁棒性方法
    5.1 谱减法
        5.1.1 谱减的基本原理
        5.1.2 使用过减(over subtraction)技术的谱减算法
    5.2 多带(multi band)谱减法
    5.3 MMSE谱减算法
    5.4 实验
        5.4.1 实验一:MMSE谱减法参数优化实验
        5.4.2 实验二:不同环境下联合算法实验
    5.5 小结
第六章 基于统计模型的前端增强与失真补偿的结合
    6.1 MMSE幅度谱估计
        6.1.1 MMSE幅度估计器
        6.1.2 先验SNR的估计
    6.2 对数MMSE估计器
    6.3 MMSE估计的实现
    6.4 实验
        6.4.1 实验一:采用MMSE估计器与logMMSE方法增强
        6.4.2 实验二:MMSE、logMMSE与CMVN联合实验
        6.4.3 实验三:实际环境语音测试
    6.5 算法综合比较
    6.6 小结
第七章 结论及展望
    7.1 研究总结
    7.2 展望
参考文献
致谢
作者简介

【参考文献】

中国期刊全文数据库 前10条

1 王易川;李智忠;;基于Mel倒谱和BP神经网络的船舶目标分类研究[J];传感器与微系统;2011年06期

2 郭海燕;杨震;朱卫平;;一种新的基于稀疏分解的单通道混合语音分离方法[J];电子学报;2012年04期

3 白立舜;杨伯钢;王晴;;森林资源调查的便携式野外声控记录技术研究[J];测绘通报;2013年09期

4 张雪英;贾海蓉;靳晨升;;子空间与维纳滤波相结合的语音增强方法[J];计算机工程与应用;2011年14期

5 刘放军;王仁华;;语音识别前端鲁棒性问题综述[J];计算机科学;2006年04期

6 王让定,柴佩琪;语音倒谱特征的研究[J];计算机工程;2003年13期

7 舒挺,张国煊;基于Voice XML技术的信息服务集成[J];计算机应用;2003年06期

8 王晓兰,周献中;格式正确的有限命令识别[J];计算机应用;2005年10期

9 雷建军;杨震;刘刚;郭军;;噪声鲁棒语音识别研究综述[J];计算机应用研究;2009年04期

10 张翠丽;张申生;李磊;;基于统一受理的农业呼叫中心解决方案[J];计算机应用与软件;2006年10期

中国博士学位论文全文数据库 前1条

1 胡郁;语音识别中基于模型补偿的噪声鲁棒性问题研究[D];中国科学技术大学;2009年

中国硕士学位论文全文数据库 前2条

1 李金娟;基于HMM模型的语音情感识别的研究[D];天津大学;2007年

2 周阿转;汽车驾驶环境中的鲁棒性语音识别[D];苏州大学;2012年



本文编号:168820

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/168820.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户586f6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]