当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习方法的环境声音识别

发布时间:2024-04-27 18:20
  环境声音识别通常采集环境中的音频数据并对其进行分析和识别,从而达到对环境感知的能力。它在音频取证、声源定位与分类、声音事件检测和场景识别等领域都具有重要的意义。本文针对自然环境下动物声音识别受到非平稳的噪声干扰及复杂声音场景识别问题,提出使用栈式降噪自编码器(Stack Denoise Auto-encoder,SDA)的声音增强算法、卷积神经网络(Convolutional Neural Networks,CNN)结合随机森林(Random Forest,RF)的声音场景识别方法。本文的主要内容如下:(1)声音增强算法。针对自然环境中各种非平稳背景噪声对声音特征干扰,传统方法无法有效滤除噪声成分,提出使用多信噪比混合的声音数据增强方式结合多层卷积结构的SDA模型进行训练,使带噪信号的声谱图可以滤除噪声的成分。首先,使用纯净声与环境中的噪声以不同的信噪比进行混合、并对混合后的声音信号进行gammatone声谱图生成;接着,将带噪声音信号的声谱图作为SDA的输入,让其有监督地输出纯净声的声谱图。(2)声音场景的特征提取。使用Mel能量谱结合CNN对高维声谱特征的自主学习能力来提取声音场景...

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
中文摘要
ABSTRACT
第一章 引言
    1.1 选题背景与研究意义
    1.2 研究现状
    1.3 本文主要工作
        1.3.1 研究内容
        1.3.2 论文结构
第二章 深度学习方法概述
    2.1 深度学习相关概念
    2.2 感知机模型
    2.3 前馈神经网络
    2.4 反向传播算法
    2.5 卷积神经网络
        2.5.1 卷积运算
        2.5.2 卷积神经网络的结构
    2.6 深度学习中的常见问题及其解决方案
        2.6.1 梯度消失和梯度爆炸
        2.6.2 深度网络难以训练
        2.6.3 过拟合问题
    2.7 本章小结
第三章 声音增强算法
    3.1 栈式降噪自编码器的相关概念
        3.1.1 稀疏编码
        3.1.2 自编码器与栈式降噪自编码器
    3.2 基于栈式降噪自编码器的声音增强算法
    3.3 其他声音增强算法
        3.3.1 多频带谱减法
        3.3.2 维纳滤波法
    3.4 本章小结
第四章 声音场景识别
    4.1 声音的特征提取
        4.1.1 声音特征概述
        4.1.2 Mel能量谱
        4.1.3 Mel频率倒谱系数
    4.2 常见的分类器
        4.2.1 支持向量机
        4.2.2 随机森林
    4.3 用卷积神经网络和随机森林识别声音场景
        4.3.1 声音场景识别架构
        4.3.2 卷积神经网络结构
        4.3.3 CNN训练过程及其特征提取
        4.3.4 随机森林识别过程
    4.4 本章小结
第五章 实验设计与结果分析
    5.1 声音增强算法实验及其分析
        5.1.1 声音样本集
        5.1.2 实验参数设置与实验设计
        5.1.3 实验分析
    5.2 声音场景识别实验及其分析
        5.2.1 声音样本集
        5.2.2 实验参数设置与实验设计
        5.2.3 实验结果与分析
    5.3 本章小结
总结与展望
参考文献
致谢
个人简历、在学期间的研究成果及发表的学术论文



本文编号:3965532

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3965532.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户149e7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com