当前位置:主页 > 科技论文 > 自动化论文 >

基于深度强化学习和迁移学习的反应式避障方法研究

发布时间:2024-03-01 06:09
  近几年来,计算机软硬件飞速提升,以无人汽车、无人机为代表的智能移动机器人越来越贴近人们的生活。移动机器人在场景中执行任务时,它们所需的一个最基础的能力就是避障。对于传统的非机器学习类的避障算法,有的算法需要开发者构建场景的三维结构而有的算法不需要构建三维模型,但是需要手动调整大量的参数,且机器人在避障的过程中不能利用避障经验进行自我迭代。对于大部分基于卷积神经网络的算法,将避障问题建模成一个基于监督学习的分类问题,但需对每个样本的标签进行手动标注,既费时又费力。而基于深度强化学习的避障算法不需要对复杂的场景进行三维重建,直接将避障问题建模成一个决策过程,实现一个端到端的输出,但对于陌生场景依然存在泛化能力不足的问题,并且在陌生场景下微调网络需要花费很长的时间。本文致力于研究一个可以快速准确且能同时应用于不同场景的反应式避障系统。在反应式避障方面,本文首先提出了基于机器人自我动态空间转换(Ego Dynamic Space Transform,EDST)的改进算法,利用单目深度估计的深度图作为输入,选择出下一时刻最优的航点,同时本文运用深度强化学习中的Double Deep Q Netw...

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

图1-1反应式避障技术的应用

图1-1反应式避障技术的应用

如何解决利用深度强化学习算法在避障任务中的稳定学习以及利用迁移学习实现模型快速迁移是本文算法旨在解决的问题。图1-1反应式避障技术的应用1.2研究现状1.2.1基于非机器学习的避障算法机器人的避障算法研究要追溯到上个世纪。传统的避障算法大致分为三个部分,障碍物检测、可通行区....


图1-2基于非机器学习避障算法流程图

图1-2基于非机器学习避障算法流程图

2图1-2基于非机器学习避障算法流程图,传统的非机器学习类的避障算法首先利用机器人携者激光雷达检测出场景中的障碍物,然后计算出机器域可能存在多个,因此需要通过定义的最优代价函数


图2-1马尔科夫决策过程

图2-1马尔科夫决策过程

2强化学习和迁移学习算法要是阐述强化学习和迁移学习涉及的基础理论和相体的算法和实现方法进行介绍,并分析它们的优劣算法应式避障问题可以看作为一个马尔科夫决策过程,即,决策出接下来需要执行的动作,根据机器人的控制节将介绍马尔科夫决策过程的原理、基于马尔科夫决于策略梯度的算法原理,并....


图2-2Q-learning框架图

图2-2Q-learning框架图

的非线性性来替换之前的Q表。图2-2Q-learning框架图图2-2为Q-learning算法的框架图,输入的状态经过神经网络编码之后映射成离散的Q值,每个Q值对应一个动作,同样地,根据贝尔曼最优方程来选取执行动作。然后通过反向传播(BackProp....



本文编号:3915537

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3915537.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户ce807***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com