当前位置:主页 > 科技论文 > 搜索引擎论文 >

强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究

发布时间:2022-02-14 03:35
  目标搜索问题是现实中一类常见的问题,如灾难现场搜救、战场目标侦察等.无人机由于其灵活性、低成本、可搭载各类传感器并以集群形式开展协作等优势,是解决大范围、高风险区域目标搜索问题的理想技术方案,当前发展迅速.在战场等复杂现实环境中,由于缺乏基础通信设施及干扰的存在,无人机与地面指挥员、无人机之间难以快速、可靠通信,处于通信拒止状态.因此,无人机难以获得指挥员的实时控制信息,需要其具备自主、智能完成任务的能力并开展协同.随着人工智能技术的快速发展,强化学习技术在解决连续决策问题上展现出了较强的潜力.无人机搜索问题作为一种典型的连续决策问题,属于强化学习技术的适用范围.但对于目前的强化学习及人工智能技术能否适用于无人机从而自主决策完成现实场景中的任务这一问题尚存争议,仍有待进一步探索.为此,本文以现实战场环境为背景,对通信拒止及包含两方对抗的战场环境中的目标搜寻问题进行了建模,依据模型构建了对抗仿真平台,并通过实验研究的方式针对以下3个问题展开了探索:(1)强化学习在通信拒止环境下多无人机搜索问题的适用性;(2)各强化学习算法在该问题上的优劣;(3)通信拒止程度对强化学习算法效果的影响.通过... 

【文章来源】:中国科学:信息科学. 2020,50(03)北大核心CSCD

【文章页数】:21 页

【部分图文】:

强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究


(网络版彩图)仿真环境

算法,目标,效率,性能


不同的算法完成任务时所需的探索时间是不同的,一般情况下,我们希望算法能够尽可能快地完成任务.因此,根据任务完成率MCR的定义,我们提出了平均成功时间来衡量算法完成目标搜索任务的效率.这里的成功是指成功完成任务,即一轮测试搜寻到两个目标.若进行N轮测试,其中有L轮成功完成任务:其中为L轮成功完成任务的测试中,平均任务完成时间(mission complete time)的均值,MCTi为每轮测试成功完成任务所需探索时间.由第2.1小节可知,每轮测试无人机最大飞行时间为T,MCTi的取值范围为MCTi∈[0,T],平均成功时间越小,则说明该算法完成目标搜寻任务的效率越高该指标可以帮助本文从算法性能角度回答RQ1和RQ2,同时作为分析RQ3影响程度的性能方面的评价指标.

强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究


RQ3实验结果

【参考文献】:
期刊论文
[1]从狼群智能到无人机集群协同决策[J]. 段海滨,张岱峰,范彦铭,邓亦敏.  中国科学:信息科学. 2019(01)
[2]DARPA拒止环境中协同作战项目白军网络研究[J]. 李磊,王彤,胡勤莲,蒋琪.  航天电子对抗. 2018(06)
[3]多无人机协同导航技术研究现状及进展[J]. 许晓伟,赖际舟,吕品,樊刘仡.  导航定位与授时. 2017(04)
[4]基于生物群集行为的无人机集群控制[J]. 段海滨,李沛.  科技导报. 2017(07)
[5]解析美海军低成本无人机蜂群技术[J]. 陈晶.  飞航导弹. 2016(01)
[6]对GPS信号的干扰技术研究[J]. 武拥军,张玉.  航天电子对抗. 2002(03)



本文编号:3624165

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3624165.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f70b4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com