基于DDPG强化学习的移动机器人路径规划

发布时间：2023-03-23 22:42

　　移动机器人在未知环境下的路径规划是机器人导航的核心问题,也是当前众多学者研究的热点。强化学习作为基于奖惩机制的非监督算法,不依赖任何先验知识即可通过与环境交互选择最优动作,对于未知环境下的机器人路径规划具有较强的实用价值。路径规划任务需要输出连续的动作空间,而基于Actor-Critic框架的深度确定策略梯度算法(Deep Deterministic Policy Gradient,DDPG)由于经过策略直接输出动作,有效解决了连续动作空间问题。本文使用DDPG强化学习算法研究未知环境下移动机器人的路径规划。论文分析了路径规划以及强化学习的国内外研究现状,探究了强化学习算法的分类以及发展历程,并通过对已有多种强化学习算法的分析比较,最终选用结合神经网络的DDPG强化学习算法用于移动机器人的路径规划。对深度神经网络以及DDPG算法涉及到的经验池回放等相关背景知识进行了详细描述,为后续DDPG算法改良奠定了理论基础。为搭建DDPG算法路径规划框架,结合机器人环境状态、动作空间设计了算法所需的神经网络模型,结合路径规划任务设计了算法的奖赏函数。随着DDPG算法学习能力的提升,固定大小的经验池...

【文章页数】：71 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 课题背景及意义
    1.2 国内外研究现状
        1.2.1 非智能路径规划研究现状
        1.2.2 智能路径规划研究现状
    1.3 强化学习算法研究现状
    1.4 全文内容安排
第二章 DDPG路径规划模型
    2.1 移动机器人运动学模型
    2.2 深度确定策略梯度(DDPG)算法
        2.2.1 DQN算法
        2.2.2 DDPG路径规划算法原理
        2.2.3 深度神经网络
        2.2.4 经验池回放
    2.3 本章小结
第三章基于学习曲线理论的DDPG算法
    3.1 奖赏函数设计
    3.2 激活函数的选择
        3.2.1 Sigmoid函数
        3.2.2 Tanh函数
        3.2.3 ReLU函数
    3.3 神经网络模型搭建
        3.3.1 策略神经网络
        3.3.2 评价神经网络
    3.4 基于学习曲线理论改进DDPG算法
        3.4.1 学习曲线理论概述
        3.4.2 算法学习效率方程
        3.4.3 DDPG-vcep算法
    3.5 本章小结
第四章路径规划仿真环境模型搭建
    4.1 实验环境
        4.1.1 开发环境
        4.1.2 TensorFlow学习框架
        4.1.3 Pyglet库
    4.2 仿真环境模型搭建
        4.2.1 静态图形搭建
        4.2.2 动态环境实现
        4.2.3 环境模型建立
    4.3 使用TensorFlow构建网络模型
    4.4 仿真环境验证
    4.5 本章小结
第五章基于ROS的移动机器人路径规划实验
    5.1 实验平台简介
        5.1.1 Roch移动机器人平台
        5.1.2 激光雷达
    5.2 ROS系统
        5.2.1 ROS操作系统概述
        5.2.2 ROS系统框架
    5.3 ROS与 Gazebo联合仿真
        5.3.1 Gazebo简介
        5.3.2 建立环境与机器人仿真模型
        5.3.3 激光雷达数据裁切
        5.3.4 仿真实验
    5.4 Roch 机器人实物实验
    5.5 本章小结
结论与展望
参考文献
致谢
攻读学位期间发表的学术论文及研究成果
个人简历

本文编号：3768896

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3768896.html

上一篇：求解0-1背包问题的改进粒子群算法与鸡群算法研究
下一篇：高光谱图像解混技术的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|