基于深度神经网络的多模态语音识别

发布时间：2023-01-12 20:36

　　语音识别是实现人机交互,促进人工智能发展的关键技术。在过去的几十年里,国内外的许多专家学者在这一领域投入了大量精力,并取得了许多技术成果。如今,自动语音识别系统在产品应用中变得越来越成熟,在使用近场麦克风的无噪声环境下,对孤立词的语音识别准确率已经超过实际阈值。然而,对大规模词汇的的连续语音识别的研究,却遇到了瓶颈阶段。互联网和多媒体技术的飞速发展使人们能够通过多种渠道获得大量的原始语音数据和文本语料库。但如果只依赖传统的语音识别算法,人们是很难有效地利用这些数据来构建一个性能优秀的声学模型,识别结果也不会很好。随着近些年来,随着深度学习技术的兴起,基于DNN-HMM的声学模型混合建模方法也取代了传统的GMM-HMM声学模型,成为了当前语音识别系统的主流框架。与此同时,复杂噪声环境下的语音识别也是研究的热点。单纯依赖单模态的语音信息,很容易受到噪声环境的干扰,影响声学模型的识别结果。而视觉信息不会受到声学噪声的干扰,还能从视觉角度补充语音信息。基于以上背景,本文提出了一种视听信息融合的语音识别方法,将人脸唇部图像特征与语音特征进行多模态的特征融合,提高了声学模型的鲁棒性以及准确性。首先...

【文章页数】：64 页

【学位级别】：硕士

【文章目录】：
摘要
abstract
第1章绪论
    1.1 研究背景与意义
    1.2 语音识别技术研究历史及现状
    1.3 论文主要工作及创新点
    1.4 论文的组织结构
第2章语音识别技术研究
    2.1 语音识别系统的基本结构
        2.1.1 前端处理
        2.1.2 声学模型
        2.1.3 语言模型
        2.1.4 解码器
    2.2 HMM声学模型
        2.2.1 隐马尔科夫模型
        2.2.2 基于GMM-HMM的声学建模
    2.3 DNN声学建模
        2.3.1 深度神经网络框架
        2.3.2 DNN-HMM混合模型
    2.4 唇部信息相关技术研究
    2.5 本章小结
第3章唇部多模态信息
    3.1 多源信息融合
    3.2 多模态特征融合
        3.2.1 声学特征提取
        3.2.2 唇部图像特征提取
        3.2.3 特征融合
    3.3 本章小结
第4章基于多模态信息的自动语音识别
    4.1 Kaldi实验平台
    4.2 数据库
        4.2.1 采集设备及环境
        4.2.2 音频信息
        4.2.3 图像信息
    4.3 自动语音识别系统搭建
        4.3.1 声学数据
        4.3.2 语言数据
        4.3.3 配置文件
        4.3.4 Kaldi中的相关特性
    4.4 声学模型训练
        4.4.1 GMM-HMM模型训练
        4.4.2 DNN-HMM模型训练
    4.5 实验结果与分析
        4.5.1 评价指标
        4.5.2 实验结果
        4.5.3 实验结果分析
第5章总结与展望
    5.1 研究总结
    5.2 未来展望
参考文献
附录
发表论文和参加科研情况说明
致谢

【参考文献】：
硕士论文
[1]基于统计模型的语音识别系统研究及DSP实现[D]. 吴一超.电子科技大学 2012
[2]中等词汇量汉语连续语音识别技术研究[D]. 宫晓梅.中国海洋大学 2007

本文编号：3730415

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3730415.html

上一篇：基于机器学习模型的深圳市住房租金研究
下一篇：一种基于传播模型和聚类的加权指纹定位算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|