当前位置:主页 > 科技论文 > AI论文 >

人工智能识别主持人情感

发布时间:2020-11-08 17:19
   随着以深度学习为基础的人工智能的不断发展,未来势必越来越多的特定脑力辅助性领域工作将会被取代。人工智能通过语音识别辨识出主持人实时表达的情绪,再通过调用事先准备的大数据库,使用"情感标签"调用相应的背景音乐和图像实现自动配乐和配景。本文使用语谱图作为主持人语音情感识别的特征,利用深度残差网络(Resnet)对原始输入特征进行提取,然后使用长短记忆网络(LSTM)对Resnet的输出特征进行进一步提取,使其具有上下时刻关联性,大大提高了最终的识别结果,最后将提取出的特征通过支持向量机(SVM)进行分类,输出"情感标签"。
【部分图文】:

网络结构图,卷积,残差


现梯度弥散的问题,因为在使用随机梯度下降算法进行梯度倒传会逐渐消失。也就是说,网络模型的前几层参数被修正得少,神经网络会像是基于随机提取特征而导致难以收敛。此外,当较深的网络开始可以收敛后,又会出现退化问题,即当网络深度到达某个程度的时候,准确率出现饱和的情况,较深网络的Loss值已经收敛但是准确率却不如较浅网络,表明深度网络不容易找到全局最优点,优化的难度大大增加。为了解决退化的问题,何凯明提出了“残差区块”的概念,将原始所需要学习的函数H(x)转换成F(x)+x,即增加一个恒等映射。如图2所示,上边为普通卷积神经网络结构图,下边为残差网络结构的构建单元。图2普通卷积网络和残差网络结构图残差区块通过“捷径短连接”(ShortcutConnection)的方式,将这个构建单元的输入传递到输出,作为初始结果和输出进行一个叠加,这种简单叠加不会给网络带来额外负担,但可以极大地提高模型的训练速度和效果,不管是在训练集还是验证集上,当模型的层数很深时,这个简单的结构能够很好的解决退化问题,错误率大大降低。2.基于LSTM的语音情感特征的进一步提取在传统的神经网络中,模型不会关心上下时刻处理信息的关联,每一次都只会关注当前时刻的处理。我们需要识别主持人语音的情感,但是往往在一句话中每一时刻所表达的情感是不一样的,只有将前后语句及其特征联系起来,才能更好地识别出情感标签。并且传统的神经网络是没有记忆功能的,所以它对语音进行情感识别时,不会用到语音前一时刻已经出现的信息。与传统的神经网络相比,递归神经网络(RNN)的结构有明显的不同,它可以将当前时刻的特征信息传递给下一时刻

感知模型,情绪


侍狻?STM是在RNN基础上的一种改进,通过增加输入门限、遗忘门限和输出门限这三个门结构,使得自循环的权重得以发生变化的,从而避免了梯度消失或者梯度膨胀的问题。3.系统整体流程基于Resnet+LSTM+SVM情绪感知模型是一个基于语谱图作为输入,使用Resnet来进行特征提取,然后使用LSTM对Resnet提取到的特征进行处理,以此作为支持向量机的输入,得到分类结果输出感情标签。根据深度卷积神经网络的特性,对语谱图进行如下四种预处理方法:时间维度降采样、时间维度中采样、样本时间维度进行切割、时间维度PCA降维。图3展示了Resnet+LSTM+SVM的情绪感知模型的基本结构和详细流程,Resnet和LSTM能够协同作用,提升效果。图3情绪感知模型七、结论与展望语音情感识别的研究已经有二三十年的时间,自从深度学习应用于此领域后,有了长足和快速的发展。在语音情感识别领域,目前主流算法都是采用基于语音特征和模型分类的方式,在语音情感特征方面,本文着重介绍了语谱图和梅尔频率倒谱系数,实现了基于Resnet+LSTM+SVM的情感识别模型。对于情感识别的研究以后还可以从数据和模型两个方面进行提高:一是关于语音情感训练数据库,可以从特征提取方法、语音情感数据的质量、数量三个方面进行改善和研究,关于特征提取可以结合人工和深度神经网络两方面进行共同提取,发挥各自的优势;质量方面,对语音数据添加噪声,进行抗噪声训练;数量方面,深度学习需要大量的样本来进行训练,增加样本数量既能改善模型的过拟合情况,又可以提高训练的准确性。二是关于模型,深度学习技术在不断发展,这些模型的进一步发展能够极大地提升这些深度神经网络的应用效果,即使是同样的模型,在适当修改后往往也能有新的表现,提出或改进现有的模
【相似文献】

相关期刊论文 前10条

1 王一婷;杜鹏;;人工智能识别主持人情感[J];中国广播电视学刊;2019年01期

2 熊晓倩;;基于人工智能下语音识别方法与装置及系统的研究[J];科技资讯;2018年03期

3 石家澍;;人工智能在机器人中的应用研究[J];科技传播;2018年23期

4 陈信;;人工智能发展概述[J];电子制作;2018年24期

5 穆宝良;;基于深度学习的语音识别方法[J];信息与电脑(理论版);2018年22期

6 杨澜;;胡郁:让世界聆听“中国声谷”[J];法律与生活;2018年14期

7 袁帅;;人工智能的发展与生活应用初探[J];数字通信世界;2018年11期

8 苏若祺;;人工智能的发展及应用现状综述[J];电子世界;2018年03期

9 王婉琦;;人工智能在语言服务业中的应用现状与前景研究[J];南方论刊;2018年05期

10 李淼;成蒙;魏红祥;;只聊科学的咖啡馆——中科院物理所“人工智能”主题讨论侧记[J];物理;2017年11期


相关博士学位论文 前10条

1 刘晓峰;面向抗噪语音识别的SVM关键问题研究[D];太原理工大学;2014年

2 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年

3 何离庆;网络环境下的智能化农业信息平台研究[D];重庆大学;2002年

4 乐清洪;智能工序质量控制的理论与方法研究[D];西北工业大学;2002年

5 叶青;人工智能方法在估价领域的研究与应用[D];华侨大学;2011年

6 秦岭;基于人工智能的传感器网络节点能耗研究[D];武汉理工大学;2009年

7 汤永川;关于不确定性推理理论与知识发现的研究[D];西南交通大学;2002年

8 赵晶晶;多值规划中若干问题研究[D];吉林大学;2011年

9 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年

10 张蕾;概念结构及其应用[D];西北工业大学;2001年


相关硕士学位论文 前10条

1 娄斌;人工智能在社会应用中的法律问题研究[D];河南师范大学;2017年

2 张文涛;人工智能的唯物史观反思[D];哈尔滨工业大学;2017年

3 于丽颖;马克思“人的技术化”思想视域下的人工智能风险[D];西南交通大学;2017年

4 李洋;人工智能冬天的成因及其展望[D];南京大学;2015年

5 夏海波;中国人工智能科技的公众传播与社会评价研究[D];浙江工业大学;2017年

6 常迎春;基于分层时序记忆算法的游戏人工智能的异常检测[D];河北工业大学;2015年

7 刘帆;基于深度学习的语音识别研究[D];河北工业大学;2015年

8 许娟;改进的人工蜂群算法在语音识别中的应用研究[D];西安建筑科技大学;2018年

9 陈堆盛;随机深度网络在声学建模上的研究[D];华南理工大学;2018年

10 王杰;基于深度神经网络的语音识别研究[D];沈阳工业大学;2018年



本文编号:2875088

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/rengongzhinen/2875088.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b3bac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com