基于深层神经网络推理的图像问答技术研究和应用

发布时间：2024-04-15 20:59

　　随着深层神经网络训练方法和泛化能力的改进,以及高速并行运算能力的提升,基于深层神经网络的技术在单个模态(图像、语音、文本)已经取得了颠覆式的发展和工业级应用。但是,多模态理解和交互等人类高级认知和推理功能还是很弱。针对这个问题,本文研究多模态交互领域一个极其重要的研究课题——图像问答任务。之前相关研究主要是通过神经网络在大量数据上的暴力拟合,模型设计不够精细和缺少复杂推理能力,也缺少可解释性和泛化性。本文着力于设计和架构具有更强融合和推理能力的跨图像和文本模态的神经网络。本文研究的核心是多模态之间的融合和多阶段的问答推理。对于多模态之间的融合,首先,本文基于以前研究,提出了联合多图像特征的Global-Local模型,解决多特征增广和不同粒度特征的融合问题;其次,提出混阶注意力机制模型,结合一阶注意力和二阶注意力的优点,得到一个更好的注意力机制。对于多阶段推理,本文基于推理能力在图像问答任务中扮演非常重要角色这个认知,从模型的结构角度出发,提出和改进多个具有推理能力的深层网络结构,包括基于序列视觉动态更新模型、多步混阶模型和链式关系推理模型。这些模型验证了构造显式推理结构在图像问答中有...

【文章页数】：77 页

【学位级别】：硕士

【部分图文】：

图１－１．左图为图像问答任务通用框架，右图为图像问答的示例??

图１－１．左图为图像问答任务通用框架，右图为图像问答的示例??１??

图２－１．可视化在手写数字上训练的ＣｏｎｖＮｅｔ??２．１．３基于目标检测的Ｆａｓｔｅｒ－ＲＣＮＮ预训练网络??

目标检测网络则关注图片中特定种类的物体目标，要求得到这个目标的类别信息和??位置信息。??如图２－２，在左图中，Ｆａｓｔｅｒ?Ｒ－ＣＮＮ是一个简单、统一的用于物体检测的网络。??ＦａｓｔｅｒＲＣＮＮ已经将特征抽取，候选框提取，候选框回归，分类都整合在了一个网络??中，使得综合性能....

图２－５．注意力机制图??

Ｓｏｕｒｃｅ??图２－５．注意力机制图??可以这样来看待Ａｔｔｅｎｔｉｏｎ机制，参考图２－５，把数据从Ｑｕｅｒｙ生成Ａｔｔｅｎｔｉｏｎ?Ｖａｌｕｅ??的过程利用如下公式表达：??Ｌ??ＡＵｅｎｉｏｎ｛Ｑｕｅｒｙ，?Ｓｏｕｒｃｅ?）＝＾?Ｓｉｍｉｌａｒｉｔｙ?［Ｑｕｅｒｙ，?Ｋ?ｅ....

图３－１．?Ｇｌｏｂａｌ－Ｌｏｃａｌ?Ｆｕｓｉｏｎ模型的结构示意图??特征和Ｌｏｃａｌ模块得到的局部融合特征输入到分类器，得到最后的预测

特征和Ｌｏｃａｌ模块得到的局部融合特征输入到分类器，得到最后的预测。??３．１．２模型的总体架构??图３－１中，是Ｇｌｏｂａｌ－Ｌｏｃａｌ?Ｆｕｓｉｏｎ模型的总体架构图。它主要分为三部分，左边??的特征提取和模态融合网络是Ｇｌｏｂａｌ模块，右边的特征抽取和融合是Ｌｏｃａｌ模块，下....

本文编号：3955942

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3955942.html

上一篇：基于卷积神经网络的高能物理事例特征信息在线提取算法研究
下一篇：基于点几何的几何定理机器证明与自动发现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|