基于增强视觉特征的视觉问答研究

发布时间:2023-05-08 00:24
  视觉问答是一个典型的多模态任务,也是一个重要的研究课题,结合了计算机视觉和自然语言处理两大领域,引起了人们的广泛关注。这个任务需要同时对图像和文本进行处理并将两种数据融合,因此多模态特征的信息表示与融合在视觉问答任务中起着关键作用,基于此提出了许多解决方案。通过对已有模型的回顾与分析,这些模型在理解句子语义和关注图像相关重点区域的能力上仍然存在一些不足,这影响了视觉问答模型的性能。有鉴于此,本文提出了增强的视觉特征,通过对图像特征的改进使模型的整体性能得到提高。具体研究内容如下:(1)提出了基于联合注意力机制和增强视觉特征的多模态融合模型,实现了对于特征信息的细粒度表示。通过结合空间特征和对象特征的方式得到增强的视觉特征。此外,使用双向长短期记忆网络实现对问题本身的自注意力机制,并根据问题中的关键字来关注视觉特征中的重要区域。最后,以多模态可分解双线性池化融合模型作为图像和文本特征的融合模型。本文通过实现视觉问答任务验证了所提出模型的有效性,并进行了大量的对比实验与分析。实验结果表明,通过与现有的多个基线模型和先进模型进行比较,该模型在GQA数据集上表现出了较为先进的性能,进而也证明了...

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
1 绪论
    1.1 研究背景与意义
    1.2 研究现状
    1.3 本文研究内容
    1.4 本文结构
2 多模态融合相关概念与算法描述
    2.1 多模态任务
        2.1.1 相关问答任务
        2.1.2 视觉问答
    2.2 循环神经网络及其变体
        2.2.1 循环神经网络
        2.2.2 长短期记忆网络
        2.2.3 双向长短期记忆网络
    2.3 注意力机制
        2.3.1 Encoder-Decoder框架
        2.3.2 硬注意力机制
        2.3.3 软注意力机制
        2.3.4 自注意力机制
    2.4 双线性池化模型
    2.5 多模态融合模型
        2.5.1 联合嵌入融合模型
        2.5.2 基于注意力机制的细粒度联合嵌入融合模型
        2.5.3 基于联合注意力机制的融合模型
    2.6 本章小结
3 融合图像特征的增强视觉特征
    3.1 符号描述
    3.2 模型结构
        3.2.1 增强的视觉特征
        3.2.2 模型中的自注意力机制
        3.2.3 模型中的融合方法
    3.3 目标函数
    3.4 实验与分析
        3.4.1 实现细节
        3.4.2 实验数据与评价指标
        3.4.3 实验设置
        3.4.4 实验对比与结果
        3.4.5 实验分析
    3.5 本章小结
4 加入对象位置坐标信息的增强视觉特征
    4.1 符号描述
    4.2 模型结构
        4.2.1 加入对象坐标位置信息
        4.2.2 深层堆叠模型
    4.3 目标函数
    4.4 实验与分析
        4.4.1 实验数据与评价指标
        4.4.2 实验设置
        4.4.3 实验对比与结果
    4.5 本章小结
5 总结与展望
    5.1 研究成果总结
    5.2 展望
参考文献
附录:攻读学位期间发表的学术论文及参与项目
致谢



本文编号:3811620

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3811620.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户01e1e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]