基于自适应学习和多尺度前向注意力的语音识别研究

发布时间：2024-03-17 01:24

　　作为一种能够将人类声音转化为文字的有效方法,语音识别(Automatic Speech Recognition,ASR)凭借自身的优势已在多个领域成为主要的技术手段。目前,基于端到端的深度学习(Deep Learning)方法被广泛的应用到ASR中,其中比较常用的有连接时序分类(Connectionist Temporal Classification,CTC)模型和拥有编解码结构的注意力(Attention)模型。这两种模型完全摆脱了传统方法的强制对齐,模型优化更直接且有更强的通用性。与CTC相比,注意力模型不需要帧的独立性假设,因而其性能更好。然而,由于注意力模型刚刚出现不久,因此对其广泛深入的研究还不够充分。为此,本文从如下两个方面对注意力模型展开研究:(1)考虑到基于注意力机制的语音识别系统网络结构比较复杂,当采用梯度下降算法进行反向传播时,会出现编码器更新能力较弱的问题。因此,针对编码器部分进行改进,通过在编码器后再加入新的CTC损失与注意力损失进行结合,形成基于多任务的学习。在多任务学习中,CTC和注意力两个任务的重要程度并不一致,因此在大规模语料库中通过手动调参确定这两个...

【文章页数】：69 页

【学位级别】：硕士

【部分图文】：

图1-1端到端的语音识别系统

哈尔滨工业大学工学硕士学位论文-5-图1-1端到端的语音识别系统图1-2序列到序列模型图1-2的子图(a)为CTC模型。在无先验性对齐情况下，该模型能够度量输入和输出序列的相似度，并且能刻画语音特征和音素序列的相关性。基于CTC的语音识别系统由RNN编码模块和CTC损失函数模块组....

图1-3本文统识别

哈尔滨工业大学工学硕士学位论文-10-外研究现状，还详细描述如何搭建基于注意力机制的语音识别系统基线，分别在第1章、第2章介绍；第二部分是从编码器的角度利用CTC损失进行改进，并提出自适应多任务学习，这将在第3章介绍；第三部分，从注意力机制的角度提出前向注意力模型和多尺度模型，并....

图1-3本文的组织结构

哈尔滨工业大学工学硕士学位论文-10-外研究现状，还详细描述如何搭建基于注意力机制的语音识别系统基线，分别在第1章、第2章介绍；第二部分是从编码器的角度利用CTC损失进行改进，并提出自适应多任务学习，这将在第3章介绍；第三部分，从注意力机制的角度提出前向注意力模型和多尺度模型，并....

图2-2二维输入的有效卷积过程

哈尔滨工业大学工学硕士学位论文-16-假设输入的信号x是一维序列，即xnPù±，n是信号采样数；卷积滤波器mw，m是滤波器大小；y是卷积操作后的结果，则：(1)有效卷积11(,,"")((1),...,(),...,(1))()(1)()nmmiconvvalidtnmttii+....

本文编号：3930303

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3930303.html

上一篇：基于深度学习的水印攻防技术研究
下一篇：工业机器人轨迹规划与几何参数标定研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|