当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的唇读识别研究

发布时间:2024-03-28 00:14
  机器唇读,是一种非常新颖,只使用视觉信息即可理解讲话内容的技术。唇读识别是人工智能和计算机视觉领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言功能重建、刑事侦查、身份认证等领域。人工智能在现代社会的各个学科和领域中已经得到了广泛地应用,在各个领域都取得了很好的效果。以深度学习为核心的人工智能技术克服了一般机器学习方法中人工提取特征的困难,实现了机器自主提取特征的过程。唇读识别可以简单分为词语级和句子级两大类,词语级可以看做是判别式分类问题,而句子级可以看做是判别式序列到序列问题。目前,国内外已有学者开始研究自然场景下的唇读识别,并取得了一些成就,但研究的语言种类主要是英语。有关汉语的自然场景下的唇读识别研究目前鲜有触及。因此本文对唇读识别技术充分调研后,重点落在了自然场景下汉语唇读识别问题。本文的主要研究工作如下:1、对国内外的唇读识别技术进行了深入的对比研究,尤其是基于深度学习的唇读识别研究,初步确定了研究课题的整个工作流程。2、唇读识别领域取得进展的主要障碍之一是数据集的匮乏。目前英文唇读数据集也并不充分,可用的数据量远远不足以训练可扩展的模型。而汉语更是没有...

【文章页数】:86 页

【学位级别】:硕士

【部分图文】:

图2-2用于形状建模的68个地标点实例

图2-2用于形状建模的68个地标点实例

第2章唇读视频特征提取的方法9图2-2用于形状建模的68个地标点实例形状s由N个并置的地标点坐标(x,y)组成的2N维向量描述。1122,,,,],[,TNNyxyxxys(2-2)使用主成分分析(PCA)找到形状变化的主要模式,即最大方差的方向。有效的形状变化映射到该特征空间的....


图3-1循环神经网络语言模型(RNNLM)

图3-1循环神经网络语言模型(RNNLM)

方案,也可以使用神经网络预测概率。Ngram近似的一个问题是它限制了用于预测词语的历史。为了解决这个问题,Mikolov等[30]提出了循环神经网络语言模型(RNNLM)。这种形式的模型的简单说明如图3-1所示。左侧图展示了使用的拓扑结构,包括用于生成历史向量的....


图4-1英文唇读数

图4-1英文唇读数

天津大学硕士学位论文36帧,帧率为25fps)。十二、LRS数据集Chung等[20]建立了LRS数据集。该数据集由BBC电视台的数千个口语句子组成。每个句子最多长100个字符。训练、验证和测试集根据播出日期进行划分。预训练集有96318个片段,训练集由45839个片段组成,验证....


图4-1英文唇读数据集的样例展示

图4-1英文唇读数据集的样例展示

天津大学硕士学位论文36帧,帧率为25fps)。十二、LRS数据集Chung等[20]建立了LRS数据集。该数据集由BBC电视台的数千个口语句子组成。每个句子最多长100个字符。训练、验证和测试集根据播出日期进行划分。预训练集有96318个片段,训练集由45839个片段组成,验证....



本文编号:3940710

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3940710.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户33cb9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com