基于轻量级深度神经网络的环境声音识别

发布时间：2024-02-13 22:22

　　针对传统卷积神经网络(CNN)模型存在大量冗余参数的问题,提出了两个基于SqueezeNet核心结构Fire模块的轻量级网络模型Fnet1和Fnet2。之后结合移动端分布式数据采集和处理的特点,在Fnet2模型基础上,依据Dempster-Shafer(D-S)证据理论将Fnet2与深度神经网络(DNN)融合,提出新的网络模型FnetDNN。首先,建立一个具有四层卷积层的神经网络Cent作为基准,以梅尔倒谱系数(MFCC)作为特征输入来对比分析Fnet1、Fnet2和Cent的网络结构特点、计算量、卷积核参数数量及识别准确率,结论是Fnet1仅使用Cnet参数数量的10.3%就可达到86.7%的分类准确率;然后,将MFCC与全局特征向量输入到FnetDNN模型中,使得该模型的识别准确率提高到了94.4%。实验结果表明,Fnet网络模型不仅可以压缩冗余参数,还可以与其他网络相融合,具备模型扩展能力。

【文章页数】：6 页

【部分图文】：

图1十类声音可视化MFCC谱图

本实验以25ms的窗口和10ms帧长为参数从音频片段中提取特征，计算出0～22050Hz的40个梅尔（Mel）波段，并保留40个MFCC系数，得到的特征矩阵为40×174×1，即频率×时间×通道，如图1所示，在这一过程中，需要对时间维度不足的特征矩阵进行补零至统一长度。除....

图2Fire模块结构

SqueezNet卷积神经网络模型是由加利福尼亚大学伯克利分校和斯坦福大学的研究学者在2016年联合提出的一种旨在降低模型参数输入量的网络模型，它能解决AlexNet[20]和VGGNet(VisualGeometryGroupNet)[21]模型因参数量巨大而降低运算....

图3基于Fire模块的网络

本实验针对参考卷积神经网络模型Cnet[23]，设计一类基于SqueezNet网络Fire模块的轻量级网络模型，并将其命名Fnet，见图3。Fnet由输入层、一组16个3×3卷积核构成的“卷积+池化”结构、三组Fire模块、全局平均池化层和输出层构成。为有效验证模型性能，本实验....

图4模型结果比较

首先，本实验以Cnet作为参考网络，使用Fire模块搭建Fnet1和Fnet2模型，两个模型都采用图1提取的MFCC谱图作为输入，输入维度为40×174×1。从图4的实验结果可以看出：参数数量越多，模型分类的稳定性就越高。从训练迭代200次后的分类准确性来看，Fnet1与Cnet....

本文编号：3897299

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3897299.html

上一篇：WSNs中基于通用回归神经网络的目标跟踪算法
下一篇：一种双维度上的导频复用方法及其性能分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|