当前位置:主页 > 科技论文 > 自动化论文 >

基于深层神经网络推理的图像问答技术研究和应用

发布时间:2024-04-15 20:59
  随着深层神经网络训练方法和泛化能力的改进,以及高速并行运算能力的提升,基于深层神经网络的技术在单个模态(图像、语音、文本)已经取得了颠覆式的发展和工业级应用。但是,多模态理解和交互等人类高级认知和推理功能还是很弱。针对这个问题,本文研究多模态交互领域一个极其重要的研究课题——图像问答任务。之前相关研究主要是通过神经网络在大量数据上的暴力拟合,模型设计不够精细和缺少复杂推理能力,也缺少可解释性和泛化性。本文着力于设计和架构具有更强融合和推理能力的跨图像和文本模态的神经网络。本文研究的核心是多模态之间的融合和多阶段的问答推理。对于多模态之间的融合,首先,本文基于以前研究,提出了联合多图像特征的Global-Local模型,解决多特征增广和不同粒度特征的融合问题;其次,提出混阶注意力机制模型,结合一阶注意力和二阶注意力的优点,得到一个更好的注意力机制。对于多阶段推理,本文基于推理能力在图像问答任务中扮演非常重要角色这个认知,从模型的结构角度出发,提出和改进多个具有推理能力的深层网络结构,包括基于序列视觉动态更新模型、多步混阶模型和链式关系推理模型。这些模型验证了构造显式推理结构在图像问答中有...

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

图1-1.左图为图像问答任务通用框架,右图为图像问答的示例??

图1-1.左图为图像问答任务通用框架,右图为图像问答的示例??

图1-1.左图为图像问答任务通用框架,右图为图像问答的示例??1??


图2-1.可视化在手写数字上训练的ConvNet??2.1.3基于目标检测的Faster-RCNN预训练网络??

图2-1.可视化在手写数字上训练的ConvNet??2.1.3基于目标检测的Faster-RCNN预训练网络??

目标检测网络则关注图片中特定种类的物体目标,要求得到这个目标的类别信息和??位置信息。??如图2-2,在左图中,Faster?R-CNN是一个简单、统一的用于物体检测的网络。??FasterRCNN已经将特征抽取,候选框提取,候选框回归,分类都整合在了一个网络??中,使得综合性能....


图2-5.注意力机制图??

图2-5.注意力机制图??

Source??图2-5.注意力机制图??可以这样来看待Attention机制,参考图2-5,把数据从Query生成Attention?Value??的过程利用如下公式表达:??L??AUenion{Query,?Source?)=^?Similarity?[Query,?K?e....


图3-1.?Global-Local?Fusion模型的结构示意图??特征和Local模块得到的局部融合特征输入到分类器,得到最后的预测

图3-1.?Global-Local?Fusion模型的结构示意图??特征和Local模块得到的局部融合特征输入到分类器,得到最后的预测

特征和Local模块得到的局部融合特征输入到分类器,得到最后的预测。??3.1.2模型的总体架构??图3-1中,是Global-Local?Fusion模型的总体架构图。它主要分为三部分,左边??的特征提取和模态融合网络是Global模块,右边的特征抽取和融合是Local模块,下....



本文编号:3955942

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3955942.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户a825c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com