基于深度学习视频自动描述系统设计与实现

发布时间：2023-04-09 21:10

　　得益于Internet的快速发展,网上涌现了大量多媒体信息,最近几年短视频、视频直播等各种新型的UGC(User Generated Content)火热流行。视频中包含了丰富的信息,使用自然语言对视频进行描述,无论是理解该视频还是在Web中检索该视频都是极其重要的。所谓视频描述,是指对给定的视频,通过观察视频所包含的内容(包括视频中的对象,以及对象的活动)生成相应的句子。面对海量的视频,如果采用人工的方式对视频进行逐一的描述成本是非常高的,使用计算机技术对视频特征进行分析,并与自然语言处理的方法进行结合,自动生成对视频的描述是非常有必要的。深度学习算法自提出以来在计算机视觉和自然语言处理领域取得了巨大的成功,近几年是人工智能的主要贡献者,将简单的特征自动地组合成更加复杂的特征,并使用这些组合特征来解决实际问题是深度学习解决的核心问题之一,是一种解决“语义鸿沟”问题的有效方法。本文结合深度学习,对视频数据进行描述提出了基于深度学习的编码-解码模型,并在此模型中增加了时间注意力机制和空间注意力机制。模型首先基于视频内容,通过卷积神经网络抽取出表征其关键信息的语义表示,包括视频中的活动、活...

【文章页数】：70 页

【学位级别】：硕士

【文章目录】：
摘要
abstract
第一章绪论
    1.1 研究工作的背景与意义
    1.2 国内外研究历史与现状
    1.3 本文的主要工作内容
    1.4 本论文的结构安排
第二章视频自动描述系统需求分析
    2.1 系统需求分析
        2.1.1 功能需求
        2.1.2 系统用例图
        2.1.3 非功能需求
    2.2 关键技术介绍
        2.2.1 词向量
        2.2.2 卷积神经网络
        2.2.3 循环神经网络
    2.3 编码-解码结构模型
    2.4 注意力机制模型
    2.5 本章小结
第三章视频自动描述系统设计
    3.1 系统总体设计方案
    3.2 系统各个模块详细介绍
        3.2.1 词向量层
        3.2.2 循环层
        3.2.3 视频特征池
        3.2.4 关注层
        3.2.5 Softmax层
        3.2.6 权重平均模块
        3.2.7 多模态层
        3.2.8 MaxID层
    3.3 本章小结
第四章视频自动描述系统实现
    4.1 训练数据集的准备
        4.1.1 数据集
        4.1.2 度量标准
    4.2 TensorFlow深度学习框架的搭建
        4.2.1 TensorFlow框架的基本使用方法
        4.2.2 TensorFlow使用python脚本语言
        4.2.3 TensorFlow使用GPU加速计算
    4.3 系统代码实现
        4.3.1 系统关键流程实现
        4.3.2 神经网络训练过程
    4.4 实验结果及分析
        4.4.1 实验环境
        4.4.2 实验结果
        4.4.3 系统性能评价
    4.5 本章小结
第五章全文总结与展望
    5.1 全文总结
    5.2 后续工作展望
致谢
参考文献

本文编号：3787738

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3787738.html

上一篇：可展开桁架式抓取机械手设计与控制研究
下一篇：不可靠网络控制系统的后退时域估计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|