深度强化学习算法及应用研究

发布时间:2022-12-06 02:56
  目前机器人技术的研究已经从传统的机械动力学开始向智能化控制方向进行转变,特别是综合吸收了控制理论、人工神经网络和机器学习等领域的研究成果后,机器人技术已经逐渐成为了人工智能领域的核心之一。如何赋予机器人自主学习的能力是机器人技术发展的关键之一,也是当前机器人技术领域研究和关注的重点,机器人只有具备了自主学习能力才能称之为智能机器人。因此,如何设计更好的机器学习算法并用来提升机器人智能化水平具有重大与深远的意义。强化学习作为近年来机器学习领域中的重要算法之一,其最大的特点是可以在不给定标签训练数据的情况下,通过与环境的不断交互自主的进行学习,是提高机器人智能化水平的核心技术之一,尤其是近年来强化学习与深度学习结合的深度强化学习展现了极强的学习能力。虽然当前深度强化学习算法在机器人智能化提升方面得到了长足的发展,并且也获得了许多成功,但是深度强化学习的研究仍然处于初级阶段,在实际应用中仍旧存在着一些问题和挑战,比如奖赏黑客问题、数据利用效率问题和运动平滑性问题等。这些缺点直接影响了强化学习在现实环境中的性能表现,甚至会对智能体带来一定的损害。因此,本文以这些问题和挑战作为出发点,对现有的强... 

【文章页数】:117 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
符号说明表
第一章 绪论
    1.1 研究背景和意义
    1.2 强化学习研究现状
        1.2.1 经典强化学习方法研究现状
        1.2.2 深度强化学习方法研究现状
        1.2.3 问题与挑战
    1.3 本文主要工作
    1.4 论文组织结构
    1.5 本章小结
第二章 强化学习的原理和常用算法概述
    2.1 引言
    2.2 强化学习的原理
        2.2.1 SARSA算法
        2.2.2 Q-learning算法
        2.2.3 确定性策略梯度算法
    2.3 深度强化学习原理
        2.3.1 深度Q网络算法
        2.3.2 双重深度Q网络算法
        2.3.3 深度确定性策略梯度算法
    2.4 本章小结
第三章 基于在线策略的多步强化学习算法设计
    3.1 引言
    3.2 基于在线策略的多步强化学习算法
        3.2.1 基于On-Policy的TD强化学习算法
        3.2.2 基于On-Policy的多步强化学习算法
    3.3 仿真实验及结果分析
        3.3.1 猫捉老鼠问题
        3.3.2 山地车爬坡问题
    3.4 讨论
    3.5 本章小结
第四章 基于离线策略的多步深度强化学习算法设计
    4.1 引言
    4.2 基于离线策略的多步深度强化学习算法
        4.2.1 基于Off-Policy的TD强化学习算法
        4.2.2 基于Off-Policy的多步强化学习算法
        4.2.3 多步深度强化学习算法
    4.3 仿真实验及结果分析
        4.3.1 仿真实验平台设计
        4.3.2 仿真实验参数设置
        4.3.3 实验数据分析
        4.3.4 算法扩展性分析
    4.4 讨论
    4.5 本章小结
第五章 基于动态运动基元的深度强化学习算法设计
    5.1 引言
    5.2 基于动态运动基元的深度强化学习算法
        5.2.1 分层动态运动基元框架结构设计
        5.2.2 低级控制器学习层次结构
        5.2.3 高级策略学习层次结构
    5.3 仿真实验及结果分析
        5.3.1 仿真实验平台设计
        5.3.2 仿真实验参数设置
        5.3.3 实验结果分析
    5.4 讨论
    5.5 本章小结
第六章 总结与展望
    6.1 论文工作总结
    6.2 未来工作展望
附录1
附录2
参考文献
攻读博士学位期间取得的研究成果
致谢
附件



本文编号:3710914

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3710914.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户b5370***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]