当前位置:主页 > 科技论文 > 自动化论文 >

基于强化学习的机械臂投掷问题研究

发布时间:2022-10-09 18:55
  当前投掷问题的研究主要着重于对运动轨迹的优化,对其释放动作的研究较少。尤其在使用强化学习方法时,该问题尤为明显。近年来,强化学习被广为应用在各种领域。然而当某些动作有着特殊限制的情况时,直接使用强化学习算法处理将难以得到有效的结果。本文研究的投掷问题就有着这类问题的特点。本文研究使用强化学习处理带释放动作的机械臂投掷问题。由于释放动作有着执行后会直接结束本回合的特殊限制,释放动作会影响策略的学习。本文针对该问题提出了结合贝叶斯优化的强化学习方法,并在实践中证明该方法的有效性。本文先介绍了当前强化学习的发展和机械臂控制方面的研究现状,以及基于强化学习的机械臂控制的研究意义。并发现众多基于强化学习的机械臂投掷研究中,对释放动作的简化。因此本文将直面该问题,研究如何使用强化学习处理不简化释放动作的投掷问题。其次,本文详细介绍了强化学习的相关知识。包括强化学习的基础知识、分类方法等,并对一些主流算法的发展以及各个算法之间的优势、特点进行介绍。接着,本文研究带释放动作的机械臂投掷问题。本文先具体化一个带释放动作的机械臂投掷任务,再基于V-REP仿真平台,构建仿真环境,直接对接强化学习算法进行实验... 

【文章页数】:59 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题背景与研究意义
    1.2 强化学习研究现状
    1.3 机械臂投掷研究现状
    1.4 本文主要工作
    1.5 本文组织结构
第2章 深度强化学习
    2.1 强化学习基础
        2.1.1 马尔科夫决策过程
        2.1.2 动态规划方法
        2.1.3 蒙特卡罗方法
        2.1.4 时间差分方法
    2.2 强化学习算法分类
        2.2.1 Model-based和Model-free方法
        2.2.2 Value-based、Policy-based和Actor-Critic方法
        2.2.3 On-policy和Off-policy方法
    2.3 深度强化学习算法的发展
        2.3.1 深度Q网络(DQN)算法
        2.3.2 策略梯度(PG)算法
        2.3.3 演员-评论家(AC)算法
        2.3.4 深度确定策略梯度(DDPG)算法
        2.3.5 信赖域策略优化(TRPO)算法
        2.3.6 近端策略优化(PPO)算法
第3章 基于深度强化学习的投掷控制方法
    3.1 本文的特点与难点
    3.2 选择强化学习算法
    3.3 选择贝叶斯优化方法
    3.4 结合贝叶斯优化与强化学习方法
第4章 仿真环境与训练场景
    4.1 V-REP机器人仿真环境
    4.2 仿真环境场景模型搭建
    4.3 强化学习场景构造
    4.4 对接场景与算法
第5章 实验结果分析
    5.1 单纯的强化学习方法
    5.2 强制约束释放时机结合强化学习方法
    5.3 结合贝叶斯优化的强化学习方法
第6章 结论与展望
    6.1 结论
    6.2 展望
致谢
参考文献



本文编号:3689178

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3689178.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户95bb4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com