当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的视频内容描述研究

发布时间:2024-03-02 11:08
  随着社交媒体和计算机网络技术的飞速发展,大量的多媒体数据在网络中传输,其中,视频数据是最具有代表性和复杂性的一种多媒体数据类型,如何从海量视频数据中自动提取有用的信息变得越来越重要。视频描述任务因其在人机交互、视频监控、视频检索等方面存在巨大潜在应用价值而成为近年来热点研究方向之一。与图像描述不同,视频描述需要理解视频的上下文,这对于描述开放领域视频问题来说是困难的,不仅是因为视频中包含动态的对象、场景、动作等信息,还因为难以确定视频中各种复杂信息的主次顺序以及如何用准确简洁的语言来表达,因此视频重要信息挖掘以及优化语言描述是视频描述任务中必须解决的重要问题。针对以上问题,本文的主要研究工作与贡献如下:1.当前视频描述任务中,通常未能有效消除视频特征中的空间冗余信息,而且常用的损失函数由目标正确词的概率对数组成,形成的长句子往往会给模型带来很大损失。相反,在经过对数似然损失函数优化生成的句长过短会导致描述语义不完整且准确性不高。本文提出一种基于语义信息筛选和句长调制的视频描述方法解决上述问题。首先,在编码阶段,模型引入一种门控融合机制,通过对视频语义特征的筛选,去除视频特征语义信息里多...

【文章页数】:57 页

【部分图文】:

图2智慧教室中的教学交互策略设计与实施评价反思协同知识构建思维导图支持的情境创设共享论证协商创作反思提升师生交互设计

图2智慧教室中的教学交互策略设计与实施评价反思协同知识构建思维导图支持的情境创设共享论证协商创作反思提升师生交互设计

电化教育研究图2智慧教室中的教学交互策略设计与实施策略基本流程评价和反思教学交互策略问卷星支持的即时测评与反馈评价反思弹幕技术支持的评论与反思“云课堂”支持的协作问题解决协同知识构建思维导图支持的问卷星/云课堂支持的基于量规的同伴评价问题设计问题实现问题作答问题反馈量规研发展示分....


图2.1视频理解的几个层次??“”

图2.1视频理解的几个层次??“”

区别于视频分类、物体检测等标签式的粗粒度视觉理解任务,其旨在识别视??频中的物体以及何种动作。视频内容描述研宄往前更进一步,基于识别检测的结??果生成一个连贯的句子。如果要理解一段视频,可以分为多个层次,如图2.1所??示:1.第一步确定每个像素属于什么类;2.第二步是区域识别,....


图2.2空间注意力机制的图像描述生成模型??

图2.2空间注意力机制的图像描述生成模型??

点在于:在解码器阶段不是每个单词的生成都需要利用全部的图像编码信息,而??是利用注意力机制选择特定的与之相关联的图像区域的特征信息进行语言解码。??空间注意力机制模型结构[331如图2.2所示。??14x14?Feature?Map?IR9H?A???J._?A?flying??....


图2.3时间注惫力机制的视频描述生成模型

图2.3时间注惫力机制的视频描述生成模型

?第2章视频内容描述技术理论基础2.时间注意力机制??和空间注意力机制非常相似,时间注意力机制更多的是用在以时序序列输入的领域中,比如语音和视频领域。时间注意力机制来源于人们在观察视频序列输入信息的时候,并不是一次就把整段视频的每个帧画面都看过,而是根需求将注意力集中到视频段中的....



本文编号:3916766

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3916766.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f6d1e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com