基于卷积神经网络的唇语识别技术研究

发布时间:2024-03-24 02:33
  自动唇读是一种集计算机视觉、人工智能与自然语言处理于一体的综合技术,可以直接从人讲话时的嘴唇动作图像序列中识别讲话内容,是一种新型的人机交互方式。近年来,随着人工智能技术的快速发展,唇语识别技术也越发的更加成熟起来,其网络模型的识别准确率也有着明显的提高。本文利用公开数据集GRID语料库中的视频数据,在GPU平台上搭建了一个固定结构语句的唇语识别系统,固定结构语句中包括命令、颜色、介词、字母、数字以及副词,例如:“Place blue in m one soon”。所有语句都采用这样的结构,该系统是一个句子层面的唇语识别系统。我们采用一种耦合三维卷积神经网络(3D-CNN)和双向长短期记忆网络(Bi-LSTM)相结合的网络架构对输入的连续75张图片数据进行特征提取,同时,为了不对输入的每一帧图片数据和标签数据进行人工对齐操作,我们采用了CTC损失函数作为唇语识别系统的模型训练损失。采用CTC作为损失函数的唇语识别系统模型训练,是一种完全端到端的唇语识别系统模型训练,不需要预先对数据做对齐,只需要一个连续动作的嘴部图像输入序列和一个标签输出序列即可以训练网络模型。本文使用的网络结构较小,...

【文章页数】:60 页

【学位级别】:硕士

【部分图文】:

图2-5标准正太分布图

图2-5标准正太分布图

第二章神经网络理论9维的特征向量,在这一层中,所有的神经元都会两两进行连接,目的是把前一层的神经元特征都综合起来,所以一个网络的绝大多数参数都集中在了全连接层。它的最终目的是将最后一层卷积得到的特征图转换成向量,然后对这个向量做乘法,最终降低其维度,全连接层输出的数据经过soft....


图2-6Sigmoid函数图像

图2-6Sigmoid函数图像

第二章神经网络理论10当网络的激活函数为Sigmoid函数时,其公式为:()=11+(2-3)下图2-6为Sigmoid函数图像。图2-6Sigmoid函数图像对Sigmoid函数进行求导操作,其导数公式如下所示:()=()(1())(2-4)图2-7为Sigmoid导函数对应的....


图2-7Sigmoid导函数图像

图2-7Sigmoid导函数图像

第二章神经网络理论10当网络的激活函数为Sigmoid函数时,其公式为:()=11+(2-3)下图2-6为Sigmoid函数图像。图2-6Sigmoid函数图像对Sigmoid函数进行求导操作,其导数公式如下所示:()=()(1())(2-4)图2-7为Sigmoid导函数对应的....


图3-2部分视频标签

图3-2部分视频标签

第三章训练数据集的制作



本文编号:3936835

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3936835.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户3b497***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]