当前位置:主页 > 科技论文 > 信息工程论文 >

噪声环境下融合语言模型的端到端语音识别算法研究

发布时间:2024-02-15 11:20
  语音识别技术是一门应用越来越广泛的技术,在一些领域已经让人们摆脱人机交互的束缚,但是由于噪声对语音识别系统的影响较大,使得语音识别技术的应用进入了瓶颈期。为了解决噪声环境下语音识别系统性能下降、识别率低的问题,本文研究内容如下:首先,本文提出了基于协调注意力的深度复数密集连接卷积递归网络的语音降噪算法CA-DCDCCRN,利用密集卷积替换标准卷积,增强降噪网络的深度监督和特征重用能力,再引入协调注意力机制,使移动网络能够在大区域上进行关注,为不同的特征通道分配不同的关注权重,从而提取噪声语谱图的细节信息。其次,本文提出了基于Transform的轻量化语言模型LLMT。此模型的核心内容是利用基于权重转换和Hadamard矩阵的权重计算方法实现权重复用,解决共享参数单一化问题,同时Hadamard矩阵计算解决了部分多头注意力权重未使用的问题,提升模型的编解码速度。另外,本文设计了特征补偿的轻量化前馈网络,通过升维和降维操作对特征进行整合,降低了网络参数计算量,并利用特征补偿来保证前馈网络的性能。最后,本文在前两点研究的基础上提出了融合轻量化语言模型的端到端噪声语音识别算法ENSRILLM,...

【文章页数】:75 页

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状
        1.2.1 语音降噪技术研究现状
        1.2.2 语音识别技术研究现状
    1.3 主要研究内容及章节安排
第2章 噪声语音识别相关技术原理
    2.1 引言
    2.2 语音识别基础原理
        2.2.1 特征提取原理
        2.2.2 声学模型
        2.2.3 语言模型
    2.3 噪声处理方法
    2.4 语音识别系统
        2.4.1 传统的语音识别模型
        2.4.2 端到端语音识别模型
    2.5 本章小结
第3章 CA-DCDCCRN 语音降噪算法
    3.1 引言
    3.2 DCDCCRN 网络设计
        3.2.1 密集连接网络
        3.2.2 DCDCCRN 网络结构
    3.3 协调注意力机制捕获双向特征
    3.4 CA-DCDCCRN 网络结构
    3.5 实验结果与分析
        3.5.1 实验数据集及评价指标
        3.5.2 PESQ 和 STOI 实验结果分析
        3.5.3 SNR实验结果分析
        3.5.4 实验结果展示
    3.6 本章小结
第4章 基于 Transform 的轻量化语言模型
    4.1 引言
    4.2 ALBERT 模型
        4.2.1 ALBERT 网络结构
        4.2.2 ALBERT 存在的问题
    4.3 LLMT语言模型设计
        4.3.1 FCLFFN 网络结构
        4.3.2 WSWTHM 权重计算方法
        4.3.3 LLMT网络结构
    4.4 实验结果与分析
        4.4.1 实验数据集及评价指标
        4.4.2 消融实验结果分析
        4.4.3 语言模型实验结果分析
    4.5 本章小结
第5章 融合轻量化语言模型的端到端噪声语音识别算法
    5.1 引言
    5.2 ENSRILLM 模型搭建
        5.2.1 ENSRILLM-S 模型
        5.2.2 ENSRILLM-L 模型
    5.3 实验结果与分析
        5.3.1 实验数据集及参数介绍
        5.3.2 实验结果分析
    5.4 本章小结
结论
参考文献



本文编号:3899659

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3899659.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户b5dc4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com