
兵工学报 ›› 2024, Vol. 45 ›› Issue (9): 3161-3176.doi: 10.12382/bgxb.2023.0827
孙浩1, 黎海青1,2, 梁彦1,*(
), 马超雄1, 吴翰1
收稿日期:2023-08-30
上线日期:2024-01-13
通讯作者:
基金资助:
SUN Hao1, LI Haiqing1,2, LIANG Yan1,*(
), MA Chaoxiong1, WU Han1
Received:2023-08-30
Online:2024-01-13
摘要:
巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控制决策算法。结合领域知识、规则知识改进状态空间和回报函数设计提高算法泛化能力与训练收敛速度。构建基于软动作-评价方法的LMG突防控制决策框架,以提高算法探索效率。利用专家经验和模仿学习方法改善多弹多威胁带来的解空间狭窄、算法初始高效训练经验匮乏的问题。实验结果表明,新算法能够在动态环境中实时生成有效的突防机动指令,相较于对比方法效果更好,验证了算法的有效性。
中图分类号:
孙浩, 黎海青, 梁彦, 马超雄, 吴翰. 基于知识辅助深度强化学习的巡飞弹组动态突防决策[J]. 兵工学报, 2024, 45(9): 3161-3176.
SUN Hao, LI Haiqing, LIANG Yan, MA Chaoxiong, WU Han. Dynamic Penetration Decision of Loitering Munition Group Based on Knowledge-assisted Reinforcement Learning[J]. Acta Armamentarii, 2024, 45(9): 3161-3176.
| 符号 | 含义 |
|---|---|
| 巡飞弹速度方向矢量与X轴夹角 | |
| 巡飞弹速度方向矢量与OXY平面夹角 | |
| 巡飞弹与目标的视线连线在OXY平面上的投影与X轴之间的夹角 | |
| 巡飞弹与目标的视线连线与OXY平面的夹角 |
表1 巡飞弹模型角度定义
Table 1 Angle definition for loitering munition model
| 符号 | 含义 |
|---|---|
| 巡飞弹速度方向矢量与X轴夹角 | |
| 巡飞弹速度方向矢量与OXY平面夹角 | |
| 巡飞弹与目标的视线连线在OXY平面上的投影与X轴之间的夹角 | |
| 巡飞弹与目标的视线连线与OXY平面的夹角 |
| 对应知识 | 规则名称 |
|---|---|
| 突防任务领域知识 | 突防机动规则 |
| 任务边界型成败规则 | |
| 燃料限制型成败规则 | |
| 打击任务成败规则知识 | 区域拒止型成败规则 |
| 动态拦截型成败规则 | |
| 有效毁伤型成败规则 | |
| 目标指向引导偏好规则 | |
| 目标距离引导偏好规则 | |
| 作战操纵领域知识 | 有限机动约束规则 |
| 规避拦截约束规则 | |
| 协同飞行安全约束规则 |
表2 知识规则对照
Table 2 Comparison of knowledge and rules
| 对应知识 | 规则名称 |
|---|---|
| 突防任务领域知识 | 突防机动规则 |
| 任务边界型成败规则 | |
| 燃料限制型成败规则 | |
| 打击任务成败规则知识 | 区域拒止型成败规则 |
| 动态拦截型成败规则 | |
| 有效毁伤型成败规则 | |
| 目标指向引导偏好规则 | |
| 目标距离引导偏好规则 | |
| 作战操纵领域知识 | 有限机动约束规则 |
| 规避拦截约束规则 | |
| 协同飞行安全约束规则 |
| 名称 | 取值 |
|---|---|
| 优化器 | Adam |
| 策略网络学习率 | 0.001 |
| 评价网络学习率 | 0.001 |
| 经验池大小 | 100000 |
| 采样数据规模 | 128 |
| 奖励折扣因子 | 0.99 |
| 温度系数 | 0.2 |
| 滑动平均更新系数 | 0.995 |
| 动作探索方差 | 0.5 |
| 随机数 | 0 |
| 动作约束 | [-1,1] |
| 策略更新开始时刻 | 30000 |
表3 LMG突防决策算法参数
Table 3 Parameters of LMG penetration decision algorithm
| 名称 | 取值 |
|---|---|
| 优化器 | Adam |
| 策略网络学习率 | 0.001 |
| 评价网络学习率 | 0.001 |
| 经验池大小 | 100000 |
| 采样数据规模 | 128 |
| 奖励折扣因子 | 0.99 |
| 温度系数 | 0.2 |
| 滑动平均更新系数 | 0.995 |
| 动作探索方差 | 0.5 |
| 随机数 | 0 |
| 动作约束 | [-1,1] |
| 策略更新开始时刻 | 30000 |
| 名称 | 取值 |
|---|---|
| 场景边界lx×ly×lz/km | 10×10×2 |
| 巡飞弹速度 /(m·s-1) | 100 |
| 巡飞弹可用控制过载 /g | 5 |
| 拦截器速度 /(m·s-1) | 200 |
| 拦截器可用控制过载 /g | 3 |
| 巡飞弹巡航高度H/m | 1000 |
| 巡飞弹有效杀伤范围RMT/m | 20 |
| 拦截器有效杀伤范围RIM/m | 20 |
| 拦截器最大工作时间 /s | 50 |
| 拦截器比例制导律系数ξ | 4 |
| 巡飞弹最大工作时间 /s | 200 |
| 巡飞弹最小安全距离RMM/m | 20 |
| 防空火力区危险边界厚度LD-RD/m | 200 |
表4 LMG突防场景基本参数
Table 4 Parameters of LMG penetration scenario
| 名称 | 取值 |
|---|---|
| 场景边界lx×ly×lz/km | 10×10×2 |
| 巡飞弹速度 /(m·s-1) | 100 |
| 巡飞弹可用控制过载 /g | 5 |
| 拦截器速度 /(m·s-1) | 200 |
| 拦截器可用控制过载 /g | 3 |
| 巡飞弹巡航高度H/m | 1000 |
| 巡飞弹有效杀伤范围RMT/m | 20 |
| 拦截器有效杀伤范围RIM/m | 20 |
| 拦截器最大工作时间 /s | 50 |
| 拦截器比例制导律系数ξ | 4 |
| 巡飞弹最大工作时间 /s | 200 |
| 巡飞弹最小安全距离RMM/m | 20 |
| 防空火力区危险边界厚度LD-RD/m | 200 |
| 名称 | x0/m | y0/m | z0/m | v0/ (m·s-1) | φ0/ (°) | RD/m |
|---|---|---|---|---|---|---|
| 巡飞弹1 | -3000 | 0 | 1000 | 100 | 90 | |
| 巡飞弹2 | 0 | 0 | 1000 | 100 | 90 | |
| 巡飞弹3 | 2000 | 0 | 1000 | 100 | 90 | |
| 目标 | -1000 | 9000 | 1000 | 0 | ||
| 防空区1 | -4000 | 5500 | 0 | 1000 | ||
| 防空区2 | -3500 | 4000 | 0 | 1500 | ||
| 防空区3 | 2000 | 5000 | 0 | 2000 | ||
| 拦截器1 | -2000 | 8000 | 1000 | 200 | -90 | |
| 拦截器2 | -1200 | 7500 | 1000 | 200 | -90 | |
| 拦截器3 | 3000 | 8200 | 1000 | 200 | -90 |
表5 典型突防场景1初始状态
Table 5 Initial status of typical penetration scenario 1
| 名称 | x0/m | y0/m | z0/m | v0/ (m·s-1) | φ0/ (°) | RD/m |
|---|---|---|---|---|---|---|
| 巡飞弹1 | -3000 | 0 | 1000 | 100 | 90 | |
| 巡飞弹2 | 0 | 0 | 1000 | 100 | 90 | |
| 巡飞弹3 | 2000 | 0 | 1000 | 100 | 90 | |
| 目标 | -1000 | 9000 | 1000 | 0 | ||
| 防空区1 | -4000 | 5500 | 0 | 1000 | ||
| 防空区2 | -3500 | 4000 | 0 | 1500 | ||
| 防空区3 | 2000 | 5000 | 0 | 2000 | ||
| 拦截器1 | -2000 | 8000 | 1000 | 200 | -90 | |
| 拦截器2 | -1200 | 7500 | 1000 | 200 | -90 | |
| 拦截器3 | 3000 | 8200 | 1000 | 200 | -90 |
| 算法 | 任务 成功 | 被拦截 器击中 | 撞击障 碍区 | 超出边 界约束 | 超出时 间约束 | 相互碰 撞坠毁 |
|---|---|---|---|---|---|---|
| KASAC | 299 | 1 | 0 | 0 | 0 | 0 |
| SAC | 197 | 3 | 99 | 1 | 0 | 0 |
| VAAPF | 133 | 55 | 88 | 16 | 6 | 2 |
表6 场景1下100次蒙特卡洛仿真结果对比
Table 6 Monte Carlo simulation results of Scenario 1
| 算法 | 任务 成功 | 被拦截 器击中 | 撞击障 碍区 | 超出边 界约束 | 超出时 间约束 | 相互碰 撞坠毁 |
|---|---|---|---|---|---|---|
| KASAC | 299 | 1 | 0 | 0 | 0 | 0 |
| SAC | 197 | 3 | 99 | 1 | 0 | 0 |
| VAAPF | 133 | 55 | 88 | 16 | 6 | 2 |
| 名称 | x0/m | y0/m | z0/m | v0/ (m·s-1) | φ0/ (°) | RD/m |
|---|---|---|---|---|---|---|
| 巡飞弹1 | -3000 | 0 | 1000 | 100 | 90 | |
| 巡飞弹2 | -500 | -500 | 1000 | 100 | 90 | |
| 巡飞弹3 | 1500 | 0 | 1000 | 100 | 90 | |
| 目标 | -1000 | 9000 | 1000 | 0 | ||
| 防空区1 | 3000 | 40000 | 0 | 1800 | ||
| 防空区2 | -3500 | 4000 | 0 | 1600 | ||
| 防空区3 | -1000 | 6000 | 0 | 1200 | ||
| 拦截器1 | -4000 | 8000 | 1000 | 200 | -90 | |
| 拦截器2 | -1800 | 7800 | 1000 | 200 | -90 | |
| 拦截器3 | 2000 | 8200 | 1000 | 200 | -90 |
表7 典型突防场景2初始状态
Table 7 Initial status of typical penetration scenario 2
| 名称 | x0/m | y0/m | z0/m | v0/ (m·s-1) | φ0/ (°) | RD/m |
|---|---|---|---|---|---|---|
| 巡飞弹1 | -3000 | 0 | 1000 | 100 | 90 | |
| 巡飞弹2 | -500 | -500 | 1000 | 100 | 90 | |
| 巡飞弹3 | 1500 | 0 | 1000 | 100 | 90 | |
| 目标 | -1000 | 9000 | 1000 | 0 | ||
| 防空区1 | 3000 | 40000 | 0 | 1800 | ||
| 防空区2 | -3500 | 4000 | 0 | 1600 | ||
| 防空区3 | -1000 | 6000 | 0 | 1200 | ||
| 拦截器1 | -4000 | 8000 | 1000 | 200 | -90 | |
| 拦截器2 | -1800 | 7800 | 1000 | 200 | -90 | |
| 拦截器3 | 2000 | 8200 | 1000 | 200 | -90 |
| 算法 | 任务 成功 | 被拦截 器击中 | 撞击障 碍区 | 超出边 界约束 | 超出时 间约束 | 相互碰 撞坠毁 |
|---|---|---|---|---|---|---|
| KASAC | 295 | 0 | 0 | 3 | 2 | 0 |
| SAC | 200 | 0 | 100 | 0 | 0 | 0 |
| VAAPF | 90 | 84 | 103 | 22 | 0 | 1 |
表8 场景2下100次蒙特卡洛仿真结果对比
Table 8 Monte Carlo simulation results of Scenario 2
| 算法 | 任务 成功 | 被拦截 器击中 | 撞击障 碍区 | 超出边 界约束 | 超出时 间约束 | 相互碰 撞坠毁 |
|---|---|---|---|---|---|---|
| KASAC | 295 | 0 | 0 | 3 | 2 | 0 |
| SAC | 200 | 0 | 100 | 0 | 0 | 0 |
| VAAPF | 90 | 84 | 103 | 22 | 0 | 1 |
| [1] |
孙亚楠, 钟选明, 王俐云, 等. 天基信息支持远程精确打击作战及其体系建设的需求[J]. 战术导弹技术, 2018(5):13-18.
|
|
|
|
| [2] |
张堃, 刘泽坤, 华帅, 等. 基于T/S-SAS的多无人机四维协同攻击航线生成[J]. 兵工学报, 2023, 44(6):1576-1587.
doi: 10.12382/bgxb.2022.0211 |
|
doi: 10.12382/bgxb.2022.0211 |
|
| [3] |
|
| [4] |
王宁宇, 白瑜亮, 魏金鹏, 等. 多弹最优协同诱导突防制导律[J]. 宇航学报, 2022, 43(4):434-444.
|
|
|
|
| [5] |
赵军民, 何浩哲, 王少奇, 等. 复杂环境下多无人机目标跟踪与避障联合航迹规划研究[J]. 兵工学报, 2023, 44(9):2685-2696.
doi: 10.12382/bgxb.2022.0525 |
|
|
|
| [6] |
郭华, 郭小和. 改进速度障碍法的无人机局部路径规划算法[J]. 航空学报, 2023, 44(11):271-281.
|
|
|
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
王永雄, 田永永, 李璇, 等. 穿越稠密障碍物的自适应动态窗口法[J]. 控制与决策, 2019, 34(5):927-936.
|
|
|
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
|
| [15] |
doi: 10.1016/j.neunet.2023.02.027 pmid: 36878168 |
| [16] |
蒲志强, 易建强, 刘振, 等. 知识和数据协同驱动的群体智能决策方法研究综述[J]. 自动化学报, 2022, 48(3):627-643.
|
|
|
|
| [17] |
|
| [18] |
王珂, 穆朝絮, 蔡光斌, 等. 基于安全自适应强化学习的自主避障控制方法[J]. 中国科学:信息科学, 2022, 52(9):1672-1686.
|
|
|
|
| [19] |
|
| [20] |
吴玲, 卢俊霖, 许俊飞. 激光武器反无人机集群建模与效能评估[J]. 激光与红外, 2022, 52(6):887-892.
|
|
|
|
| [21] |
高昂, 董志明, 叶红兵, 等. 基于深度强化学习的巡飞弹突防控制决策[J]. 兵工学报, 2021, 42(5):1101-1110
doi: 10.3969/j.issn.1000-1093.2021.05.023 |
|
doi: 10.3969/j.issn.1000-1093.2021.05.023 |
|
| [22] |
|
| [23] |
|
| [24] |
张立华, 刘全, 黄志刚, 等. 逆向强化学习研究综述[J]. 软件学报, 2023, 34(10):4772-4803.
|
|
|
| [1] | 张建东, 王鼎涵, 杨啟明, 史国庆, 陆屹, 张耀中. 基于分层强化学习的无人机空战多维决策[J]. 兵工学报, 2023, 44(6): 1547-1563. |
| [2] | 高昂, 董志明, 叶红兵, 宋敬华, 郭齐胜. 基于深度强化学习的巡飞弹突防控制决策[J]. 兵工学报, 2021, 42(5): 1101-1110. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||
京公网安备11010802024360号 京ICP备05059581号-4