兵工学报 ›› 2025, Vol. 46 ›› Issue (2): 240222-.doi: 10.12382/bgxb.2024.0222
收稿日期:
2024-03-28
上线日期:
2025-02-28
通讯作者:
XIAO Liujun, LI Yaxuan, LIU Xinfu*()
Received:
2024-03-28
Online:
2025-02-28
摘要:
针对高超声速滑翔飞行器末制导段存在的动力学模型参数不确定性,以及传统强化学习算法收敛速度慢的问题,提出一种基于强化学习的自适应制导方法。将标称条件下的高超声速滑翔飞行器末制导问题转化为最优控制问题,并根据序列凸优化算法进行求解得到状态-控制对的数据集:基于监督学习对数据集进行拟合,得到相应的神经网络制导模型:引入气动参数偏差、控制响应延迟系数不确定性以及状态测量噪声等干扰,通过飞行器与当前环境的大量交互,基于强化学习进一步优化神经网络制导模型。数值仿真结果表明,新提出的制导方法与监督学习制导方法相比具有更好的鲁棒性与精确性。
中图分类号:
肖柳骏, 李雅轩, 刘新福. 基于强化学习的高超声速滑翔飞行器自适应末制导[J]. 兵工学报, 2025, 46(2): 240222-.
XIAO Liujun, LI Yaxuan, LIU Xinfu. Adaptive Terminal Guidance for Hypersonic Gliding Vehicles Using Reinforcement Learning[J]. Acta Armamentarii, 2025, 46(2): 240222-.
层数 | 神经元数量 | 激活函数 |
---|---|---|
输入层 | 5 | Tanh |
隐藏层1 | 24 | Tanh |
隐藏层2 | 18 | Tanh |
输出层 | 2 |
表1 神经网络模型结构
Table 1 Network layer size
层数 | 神经元数量 | 激活函数 |
---|---|---|
输入层 | 5 | Tanh |
隐藏层1 | 24 | Tanh |
隐藏层2 | 18 | Tanh |
输出层 | 2 |
飞行器起始状态参数 | 取值范围 |
---|---|
速度v/(m·s-1) | (1700,1800) |
水平面弹目距离d/km | (-40,-30) |
弹道倾角γ/(°) | (-7.5,-2.5) |
弹道偏角ψ/(°) | (5,15) |
表2 飞行器末制导初始状态参数
Table 2 Initial state parameters of terminal guidance of aerial vehicle
飞行器起始状态参数 | 取值范围 |
---|---|
速度v/(m·s-1) | (1700,1800) |
水平面弹目距离d/km | (-40,-30) |
弹道倾角γ/(°) | (-7.5,-2.5) |
弹道偏角ψ/(°) | (5,15) |
参数 | 控制响应延迟/s | 气动参数偏差/% | 状态测量噪声/% |
---|---|---|---|
工况1 | 0.1 | 0 | 0 |
工况2 | 0 | 10 | 0 |
工况3 | 0.1s | 10 | 1 |
表3 工况参数描述
Table 3 Description of operating parameters
参数 | 控制响应延迟/s | 气动参数偏差/% | 状态测量噪声/% |
---|---|---|---|
工况1 | 0.1 | 0 | 0 |
工况2 | 0 | 10 | 0 |
工况3 | 0.1s | 10 | 1 |
学习率 | 优化器 | 折扣因子 | 取样数 | 经验池 |
---|---|---|---|---|
1×10-4 | Adam | 0.99 | 128 | 1×106 |
表4 DDPG算法参数设置
Table 4 Parameters of DDPG algorithm
学习率 | 优化器 | 折扣因子 | 取样数 | 经验池 |
---|---|---|---|---|
1×10-4 | Adam | 0.99 | 128 | 1×106 |
方法 | 工况1 | 工况2 | 工况3 |
---|---|---|---|
开环指令制导 | 154.09 | 669.11 | 869.11 |
监督学习制导 | 35.86 | 106.27 | 139.02 |
强化学习自适应制导 | 5.62 | 12.78 | 15.45 |
表5 不同方法的脱靶量
Table 5 Miss distances of different methods m
方法 | 工况1 | 工况2 | 工况3 |
---|---|---|---|
开环指令制导 | 154.09 | 669.11 | 869.11 |
监督学习制导 | 35.86 | 106.27 | 139.02 |
强化学习自适应制导 | 5.62 | 12.78 | 15.45 |
[1] |
董金鲁, 马悦萌, 周荻, 等. 临近空间高超声速飞行器的直接力与襟翼复合滑模控制[J]. 兵工学报, 2023, 44(2):496-506.
doi: 10.12382/bgxb.2021.0690 |
doi: 10.12382/bgxb.2021.0690 |
|
[2] |
|
[3] |
刘畅, 王江, 范世鹏, 等. 基于BP神经网络的自适应偏置比例导引[J]. 兵工学报, 2022, 43(11):2798-2809.
|
doi: 10.12382/bgxb.2021.0594 |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
李庆波, 李芳, 董瑞星, 等. 利用强化学习开展比例导引律的导航比设计[J]. 兵工学报, 2022, 43(12):3040-3047.
|
doi: 10.12382/bgxb.2021.0631 |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[1] | 胡砚洋, 何凡, 白成超. 高超声速飞行器末制导段协同避障决策方法[J]. 兵工学报, 2024, 45(9): 3147-3160. |
[2] | 孙浩, 黎海青, 梁彦, 马超雄, 吴翰. 基于知识辅助深度强化学习的巡飞弹组动态突防决策[J]. 兵工学报, 2024, 45(9): 3161-3176. |
[3] | 陈文杰, 崔小红, 王斌锐. 安全最优跟踪控制算法与机械手仿真[J]. 兵工学报, 2024, 45(8): 2688-2697. |
[4] | 王霄龙, 陈洋, 胡棉, 李旭东. 基于改进深度Q网络的机器人持续监测路径规划[J]. 兵工学报, 2024, 45(6): 1813-1823. |
[5] | 娄抒瀚, 王冲冲, 龚炜, 邓立原, 李莉. 基于MLAT-DRL算法的协同区域信息采集策略[J]. 兵工学报, 2024, 45(12): 4423-4434. |
[6] | 董明泽, 温庄磊, 陈锡爱, 杨炅坤, 曾涛. 安全凸空间与深度强化学习结合的机器人导航方法[J]. 兵工学报, 2024, 45(12): 4372-4382. |
[7] | 李加申, 王晓芳, 林海. 引入虚拟目标的高超声速巡航导弹智能机动突防策略[J]. 兵工学报, 2024, 45(11): 3856-3867. |
[8] | 傅妍芳, 雷凯麟, 魏佳宁, 曹子建, 杨博, 王炜, 孙泽龙, 李秦洁. 基于演员-评论家框架的层次化多智能体协同决策方法[J]. 兵工学报, 2024, 45(10): 3385-3396. |
[9] | 李松, 麻壮壮, 张蕴霖, 邵晋梁. 基于安全强化学习的多智能体覆盖路径规划[J]. 兵工学报, 2023, 44(S2): 101-113. |
[10] | 曹子建, 孙泽龙, 闫国闯, 傅妍芳, 杨博, 李秦洁, 雷凯麟, 高领航. 基于强化学习的无人机集群对抗策略推演仿真[J]. 兵工学报, 2023, 44(S2): 126-134. |
[11] | 杨加秀, 李新凯, 张宏立, 王昊. 基于积分强化学习的四旋翼无人机鲁棒跟踪[J]. 兵工学报, 2023, 44(9): 2802-2813. |
[12] | 张建东, 王鼎涵, 杨啟明, 史国庆, 陆屹, 张耀中. 基于分层强化学习的无人机空战多维决策[J]. 兵工学报, 2023, 44(6): 1547-1563. |
[13] | 李超, 王瑞星, 黄建忠, 江飞龙, 魏雪梅, 孙延鑫. 稀疏奖励下基于强化学习的无人集群自主决策与智能协同[J]. 兵工学报, 2023, 44(6): 1537-1546. |
[14] | 郑泽新, 李伟, 邹鲲, 李艳福. 基于强化学习的对空雷达抗干扰波形设计[J]. 兵工学报, 2023, 44(5): 1422-1430. |
[15] | 赵文飞, 陈健, 王, 滕克难. 基于强化学习的海上要地群协同防空动态火力分配[J]. 兵工学报, 2023, 44(11): 3516-3528. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||