针对机器人运动规划的深度强化学习方法的研究

发布时间：2023-03-11 17:08

　　机器人在工业制造和人们的生活中发挥着重要的作用,在全自动化工厂(fullyautomatic factory)和无人驾驶(the driverless car)等领域都离不开机器人和相关机器人技术的支持。近年来,机器人运动规划已经成为了机器人学、自动化控制和人工智能等领域的研究热点之一。不过,机器人运动规划大多是基于精确的环境模型,无法处理不确定条件下的运动规划问题。该文针对不确定条件下机器人运动规划问题,提出使用深度强化学习的方法进行研究。概述运动规划相关知识,并分析传统运动规划方法所存在的问题;介绍强化学习和深度学习,分析强化学习应用在机器人运动规划上所存在的问题,并提出将深度学习与强化学习相结合以解决传统强化学习的高维度问题;分析深度强化学习方法应用在机器人运动规划上所存在的关键性问题,即奖励值模型、探索策略和神经网络结构,并给出相应的解决方法。该文主要内容如下:1.对强化学习中的奖励值模型进行研究。分析奖励值模型的影响因素及存在的问题,为更快速的训练系统,该文提出基于系统收敛速度的奖励值模型,并开展不同奖励值模型之间的对比实验。2.对强化学习中探索与开发的平衡问题进行研究。分析...

【文章页数】：74 页

【学位级别】：硕士

【文章目录】：
摘要
abstract
注释表
第1章绪论
    1.1 机器人定义及发展
    1.2 课题背景及意义
    1.3 课题研究现状
        1.3.1 运动规划的研究现状
        1.3.2 强化学习的研究现状
    1.4 论文的主要内容
    1.5 论文的组织结构
第2章课题相关理论基础
    2.1 运动规划概述
        2.1.1 构型空间
        2.1.2 自由空间
        2.1.3 运动规划定义
        2.1.4 不确定条件下的运动规划
        2.1.5 约束准则
    2.2 强化学习概述
        2.2.1 有限马尔科夫决策过程
        2.2.2 动态规划
        2.2.3 蒙特卡洛方法
        2.2.4 时序差分学习
    2.3 深度学习概述
        2.3.1 人工神经元
        2.3.2 卷积神经网络组成
    2.4 本章小结
第3章基于深度强化学习的机器人运动规划研究
    3.1 函数逼近
    3.2 深度强化学习
    3.3 训练样本
    3.4 奖励值模型
    3.5 探索策略
        3.5.1 ?-greedy
        3.5.2 N?-greedy
    3.6 神经网络结构分析与设计
    3.7 基于深度强化学习的机器人运动规划流程分析
    3.8 本章小结
第4章深度强化学习算法在机器人运动规划中的应用研究
    4.1 网络优化算法
    4.2 算法描述
    4.3 实验结果与分析
        4.3.1 实验环境
        4.3.2 实验仿真结果
        4.3.3 奖励模型实验对比
        4.3.4 神经网络结构实验对比
        4.3.5 探索策略实验对比
    4.4 本章小结
第5章结论与展望
    5.1 结论
    5.2 展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果

本文编号：3759911

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3759911.html

上一篇：输入非线性系统的多新息辨识方法
下一篇：多主体结构刻画与分布式估计研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|