基于负相关搜索的演化强化学习算法研究

发布时间：2023-02-08 19:19

　　作为机器学习中的一个主要分支,强化学习从智能体和环境之间的交互数据中学习最优控制策略。通过计算目标函数对策略参数的导数一直是解决强化学习问题的主流方向,近年来基于演化算法的强化学习算法不断涌现。相较于梯度算法,演化算法一方面不需要计算梯度,缩短了训练时间;另一方面演化算法能够很好的进行并行化,运行效率更高。演化算法虽然能在短时间内完成模型的训练,但是训练过程需要和环境交互的次数远远高于梯度强化学习算法。对于强化学习问题,与环境的交互是需要一定成本的,尤其是在现实问题上的应用,如强化学习应用于机器人操纵上,在训练一开始模型失败的可能性很高,很可能出现机器人损坏或者其他消耗。因此我们希望通过对强化学习算法的改进来减少智能体和环境的交互次数,或者在相同交互次数限制下得到更好的性能。本文的两个工作都基于负相关搜索思想,利用其在目标空间多个不同区域同时搜索的特性和在搜索行为层次上为演化提供的多样性来提升算法的性能。在论文的第一个工作中,我们将负相关搜索思想和自然演化策略算法相结合,提出了负相关自然演化策略算法NCNES。NCNES算法的基本设计基于自然演化策略算法框架,我们根据负相关搜索思想,设...

【文章页数】：72 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第1章绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状
        1.2.1 强化学习的发展和研究现状
        1.2.2 演化强化学习的研究现状
    1.3 本论文的研究内容和创新
    1.4 本论文的组织结构
第2章相关工作
    2.1 强化学习问题定义
    2.2 强化学习基本算法
    2.3 梯度强化学习典型算法
        2.3.1 A3C
        2.3.2 PPO
    2.4 演化强化学习算法综述
        2.4.1 演化策略模型参数
        2.4.2 演化策略模型结构
        2.4.3 演化策略模型结构与参数
        2.4.4 其他类
    2.5 本章小结
第3章基于NCS和 NES的演化强化学习算法
    3.1 自然演化策略算法
    3.2 负相关搜索算法
    3.3 算法设计
    3.4 实验设计与结果分析
        3.4.1 测试环境
        3.4.2 对比算法
        3.4.3 实验配置
        3.4.4 实验方法和结果分析
    3.5 本章小结
第4章基于CC和NCS的演化强化学习算法
    4.1 维度灾难
    4.2 合作式协同演化算法
    4.3 算法设计
    4.4 实验设计与结果分析
        4.4.1 测试环境
        4.4.2 对比算法
        4.4.3 实验配置
        4.4.4 实验方法与结果分析
    4.5 本章小结
结论
参考文献
致谢

本文编号：3738230

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3738230.html

上一篇：基于神经网络的水泥混凝土水灰比、孔隙状态与强度模型研究
下一篇：迁移和协同学习新方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|