当前位置:主页 > 科技论文 > 航空航天论文 >

基于DDQN的运载火箭姿态控制器参数设计

发布时间:2024-07-02 02:42
  探索了利用深度强化学习算法训练智能体,以代替人类工程师进行火箭姿态控制器参数的离线设计方案。建立了多特征秒的火箭频域分析模型,选定了设计参数。选择深度强化学习算法中的双深度Q学习(Double Deep Q Network,DDQN)算法,通过记忆回放和时间差分迭代的方式让智能体在与环境交互过程中不断学习。设计了对应的马尔科夫决策过程模型,进行了智能体的训练和前向测试。结果说明该方法对于运载火箭姿控设计具有一定参考价值。

【文章页数】:6 页

【部分图文】:

图1俯仰通道姿控系统闭环回路结构图

图1俯仰通道姿控系统闭环回路结构图

要进行火箭姿态控制器设计首先要建立姿控系统的频域分析模型。控制策略选择工程上常用的基于“小扰动线性化”的增益预置法。本文仅考虑俯仰通道,整个姿控系统闭环回路的结构如图1所示[9]。


图2智能体训练算法流程图

图2智能体训练算法流程图

首先初始化记忆回放单元D和两个网络的网络参数θ和θ-,开始进行实验。每次实验智能体最多可进行1500次调参。每次调参后,频域分析得到的裕度值作为状态st经过式(16)预处理,得到,将其作为当前值网络的输入,输出各动作的状态行为值,使用ε-greedy算法选择动作at并执行,得到下....


图3累计误差变化随训练次数变化曲线

图3累计误差变化随训练次数变化曲线

当网络在一定程度上收敛时结束智能体训练。训练累计误差结果如图3所示。训练开始时误差较大,累计变化的斜率很大,随着训练次数的增多,误差减小,斜率放缓。每次实验的累计回报随训练次数的变化曲线如图4所示,经过一定量的实验后单次实验的累计回报能相对稳定在20左右。由于智能体的探索以及其他....


图4单次实验累计回报随实验次数变化曲线

图4单次实验累计回报随实验次数变化曲线

由于火箭姿态控制器参数设计没有严格意义上的最优参数集合,所以理论上控制器的可行参数集合有无穷个。训练的目的就是让智能体模拟人类设计师的设计过程,在不断调整参数分析系统性能的过程中,逐渐变得“老道”,从而成为一位优秀的控制器“设计师”。3.2智能体前向测试



本文编号:3999568

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3999568.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6dcfe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com