基于进化和强化学习算法的动态路径规划研究

发布时间：2022-12-08 04:20

　　随着机器人技术的日新月异,大量的机器人被应用到军事、商业、民生各大领域,机器人的智能控制问题成为研究热点。在动态变化路径规划环境中要求智能体能对环境的变化拥有实时决策能力,基于深度学习的强化学习算法在复杂环境任务中有很好的表现。现在,深度强化学习已经广泛应用于解决智能控制问题,但是深度强化学习方法通常有三个核心问题:稀疏回报环境下的时间信用分配,缺乏有效探索,对超参数极其敏感的收敛特性。针对上述问题本文提出了改进的群体智能深度强化学习算法。群体智能算法评价值函数的设定能够直接评判最终结果的好坏,在时间信用分配的问题上有很好表现;同时这种方式也能让算法收集的经验偏向于高长期回报,使得探索经验更加便于训练;群体智能算法只需要考虑搜索时间的问题,能减少算法收敛对超参数的依赖。实验结果表明,该方法具有一定的理论和实用价值。主要研究内容:（1）提出一种改进的遗传神经网络强化学习算法。在算法中提出了符合强化学习特性的适应性函数,提出了分段权重选择交叉的方法繁衍子代和利用梯度信息加快遗传算法对解空间搜索的方法。并在修改的稀疏回报深度强化学习实验环境对算法性能进行了实验验证。（2）根据群体优化的思想,...

【文章页数】：72 页

【学位级别】：硕士

【文章目录】：
摘要
abstract
第一章绪论
    1.1 研究背景及意义
    1.2 路径规划算法国内外研究现状
    1.3 强化学习算法国内外研究现状
    1.4 论文的研究内容
    1.5 论文的主要结构
第二章关键技术理论
    2.1 动态路径规划
    2.2 强化学习理论基础
        2.2.1 马尔科夫决策过程
        2.2.2 值函数模型
        2.2.3 MDP求解方法
    2.3 传统强化学习算法
        2.3.1 Temporal-Difference Learning
        2.3.2 Q-learning算法
    2.4 深度强化学习算法
        2.4.1 Deep Q-Network算法
        2.4.2 Actor-Critic算法
        2.4.3 Deep Deterministic Policy Gradient算法
    2.5 进化算法理论基础
    2.6 本章小结
第三章遗传算法优化的强化学习算法
    3.1 深度强化学习算法的局限性
    3.2 遗传神经网络优化
    3.3 GDQN算法
    3.4 GDDPG算法
    3.5 实验验证
        3.5.1 GDQN算法实验验证
        3.5.2 GDDPG算法实验验证
    3.6 本章小结
第四章粒子群算法优化的强化学习算法
    4.1 PSO算法优势简介
    4.2 PSO神经网络优化结构及原理
    4.3 PSO-DDPG算法
    4.4 实验验证
    4.5 本章小结
第五章 PSO-DDPG算法在动态路径规划环境中的应用
    5.1 环境模型选择原理
    5.2 环境设置
        5.2.1 环境解析
        5.2.2 实验设置
    5.3 实验结果分析
        5.3.1 非稀疏回报环境下实验结果分析
        5.3.2 稀疏回报环境下实验结果分析
    5.4 本章小结
第六章总结与展望
    6.1 全文总结
    6.2 后续工作展望
致谢
参考文献
攻读硕士学位期间取得的成果

本文编号：3713539

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3713539.html

上一篇：3D-HEVC深度建模模式的优化及并行设计
下一篇：混合亚启发式算法求解带有热量损失的单吊机调度

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|