基于增强学习的Flocking集群协同控制算法研究
发布时间:2023-01-27 19:07
群体协同任务是动物界中一种普遍行为,这种协同的群体行为大大提高了动物在猎物搜索、捕食以及御敌等方面的作业效率。人类同样存在着类似于动物群体协同作业的任务或需求,并期望以一种智能化的方式得以实现。因此,对动物群体行为的仿生研究对人类开展群体智能的研究具有重要指导意义。Flocking集群协同控制算法是一种典型的基于动物群体行为仿生的群体控制算法,目前已有大量的关于基于Flocking集群协同控制算法的群体控制的研究,但对于群体与群体之间相互作用的仿生研究相当少。增强学习作为一种智能体自主学习算法,对提高人工群体(如:多智能体系统)的智能程度以及群体任务的作业效率具有潜在的价值。由于增强学习算法的智能性使得人工群体智能更加接近于生物群体智能。因此,本文主要的研究目标是针对动物界中典型的捕食行为:狼群捕食羊群,并基于增强学习与Flocking集群协同控制算法,对捕食过程中的狼群协同搜索以及狼群与羊群互抗进行仿生研究,并根据仿生模型建立多智能体协同搜索系统与多组群多智能体互抗系统。在多智能体群体协同搜索的研究过程中,本文主要研究自由区域下的多智能体搜索算法的非最优搜索问题,提出了一种基于增强学...
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 国内外研究历史与现状
1.3 研究内容与结构安排
第二章 Flocking算法与Q-learning算法基础
2.1 图
2.2 Flocking集群协同控制算法
2.3 Q-learning算法
2.4 本章小结
第三章 多智能体集群协同控制模型
3.1 多智能体协同搜索系统
3.1.1 系统架构
3.1.2 p-agent搜索运动模型
3.2 多组群多智能体互抗系统
3.2.1 系统框架
3.2.2 g-agent互抗运动模型
3.2.3 g-agent躲避模型
3.3 本章小结
第四章 可变权值协同Q-learning算法
4.1 搜索协同Q-learning
4.1.1 γ-信息地图
4.1.2 基于增强学习的区域协同搜索算法
4.1.2.1 状态空间
4.1.2.2 行为空间
4.1.2.3 回报函数
4.2 互抗协同Q-learning
4.2.1 相对极坐标
4.2.2 状态设计
4.2.3 行为设计
4.2.4 回报机制
4.3 协同Q-learning更新函数
4.4 行为选择准则
4.4.1 Q-Traversal算法行为选择
4.4.2 Q-Confrontion算法行为选择
4.5 本章小结
第五章 算法分析
5.1 可变权值协同Q-learning学习收敛性证明
5.2 运动模型的控制稳定性
5.3 Q-Traversal搜素算法复杂度分析
5.4 本章总结
第六章 Q-Traversal与 Q-Confrontion仿真验证
6.1 多智能体协同搜索系统仿真验证
6.1.1 仿真过程
6.1.2 搜索算法评估标准
6.1.3 搜索算法的搜索性能
6.1.3.1 区域覆盖效果
6.1.3.2 不同通信距离下的搜索性能
6.1.3.3 Q-Traversal的收敛性
6.1.3.4 Q-Traversal的鲁棒性验证
6.2 群体互抗仿真
6.2.1 仿真参数
6.2.2 测试内容
6.2.3 仿真与分析
6.2.3.1 收敛速度
6.2.3.2 到达率比较
6.2.3.3 g-group的结构完整性
6.2.3.4 不同阈值的影响
6.3 本章小结
第七章 总结与展望
7.1 本文贡献
7.2 未来工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]一种编队多传感器搜索空域协同分配算法[J]. 刘钦,赵刚. 火控雷达技术. 2018(01)
[2]搜索打击任务的多无人机编队的研究与优化[J]. 徐文涛,晁爱农,叶广强,丛林,黄烨. 电光与控制. 2014(04)
本文编号:3732422
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 国内外研究历史与现状
1.3 研究内容与结构安排
第二章 Flocking算法与Q-learning算法基础
2.1 图
2.2 Flocking集群协同控制算法
2.3 Q-learning算法
2.4 本章小结
第三章 多智能体集群协同控制模型
3.1 多智能体协同搜索系统
3.1.1 系统架构
3.1.2 p-agent搜索运动模型
3.2 多组群多智能体互抗系统
3.2.1 系统框架
3.2.2 g-agent互抗运动模型
3.2.3 g-agent躲避模型
3.3 本章小结
第四章 可变权值协同Q-learning算法
4.1 搜索协同Q-learning
4.1.1 γ-信息地图
4.1.2 基于增强学习的区域协同搜索算法
4.1.2.1 状态空间
4.1.2.2 行为空间
4.1.2.3 回报函数
4.2 互抗协同Q-learning
4.2.1 相对极坐标
4.2.2 状态设计
4.2.3 行为设计
4.2.4 回报机制
4.3 协同Q-learning更新函数
4.4 行为选择准则
4.4.1 Q-Traversal算法行为选择
4.4.2 Q-Confrontion算法行为选择
4.5 本章小结
第五章 算法分析
5.1 可变权值协同Q-learning学习收敛性证明
5.2 运动模型的控制稳定性
5.3 Q-Traversal搜素算法复杂度分析
5.4 本章总结
第六章 Q-Traversal与 Q-Confrontion仿真验证
6.1 多智能体协同搜索系统仿真验证
6.1.1 仿真过程
6.1.2 搜索算法评估标准
6.1.3 搜索算法的搜索性能
6.1.3.1 区域覆盖效果
6.1.3.2 不同通信距离下的搜索性能
6.1.3.3 Q-Traversal的收敛性
6.1.3.4 Q-Traversal的鲁棒性验证
6.2 群体互抗仿真
6.2.1 仿真参数
6.2.2 测试内容
6.2.3 仿真与分析
6.2.3.1 收敛速度
6.2.3.2 到达率比较
6.2.3.3 g-group的结构完整性
6.2.3.4 不同阈值的影响
6.3 本章小结
第七章 总结与展望
7.1 本文贡献
7.2 未来工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]一种编队多传感器搜索空域协同分配算法[J]. 刘钦,赵刚. 火控雷达技术. 2018(01)
[2]搜索打击任务的多无人机编队的研究与优化[J]. 徐文涛,晁爱农,叶广强,丛林,黄烨. 电光与控制. 2014(04)
本文编号:3732422
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3732422.html