兵工学报 ›› 2023, Vol. 44 ›› Issue (6): 1547-1563.doi: 10.12382/bgxb.2022.0711
张建东1, 王鼎涵1, 杨啟明1,*(), 史国庆1, 陆屹2, 张耀中1
收稿日期:
2022-08-13
上线日期:
2023-06-30
基金资助:
ZHANG Jiandong1, WANG Dinghan1, YANG Qiming1,*(), SHI Guoqing1, LU Yi2, ZHANG Yaozhong1
Received:
2022-08-13
Online:
2023-06-30
摘要:
针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合Soft Actor-Critic算法和专家经验训练和建立元策略组,并改进传统的Option-Critic算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。
张建东, 王鼎涵, 杨啟明, 史国庆, 陆屹, 张耀中. 基于分层强化学习的无人机空战多维决策[J]. 兵工学报, 2023, 44(6): 1547-1563.
ZHANG Jiandong, WANG Dinghan, YANG Qiming, SHI Guoqing, LU Yi, ZHANG Yaozhong. Multi-Dimensional Decision-Making for UAV Air Combat Based on Hierarchical Reinforcement Learning[J]. Acta Armamentarii, 2023, 44(6): 1547-1563.
回合 | N1 | N1 | N1-N1 |
---|---|---|---|
1 | 16 | 15 | 1 |
2 | 17 | 8 | 9 |
3 | 22 | 12 | 10 |
4 | 18 | 14 | 4 |
5 | 26 | 16 | 10 |
6 | 24 | 10 | 14 |
7 | 21 | 15 | 6 |
8 | 19 | 13 | 6 |
9 | 17 | 15 | 2 |
10 | 20 | 12 | 8 |
表1 10回合雷达开关与否的被动发现次数统计
Table 1 Data of the number of passive discoveries with or without radar switch in 10 rounds
回合 | N1 | N1 | N1-N1 |
---|---|---|---|
1 | 16 | 15 | 1 |
2 | 17 | 8 | 9 |
3 | 22 | 12 | 10 |
4 | 18 | 14 | 4 |
5 | 26 | 16 | 10 |
6 | 24 | 10 | 14 |
7 | 21 | 15 | 6 |
8 | 19 | 13 | 6 |
9 | 17 | 15 | 2 |
10 | 20 | 12 | 8 |
回合 | S | D | 回合 | S | D | |
---|---|---|---|---|---|---|
1 | 1 | 0 | 6 | 0 | 0 | |
2 | 0 | 0 | 7 | 2 | 1 | |
3 | 2 | 0 | 8 | 0 | 0 | |
4 | 1 | 0 | 9 | 1 | 0 | |
5 | 0 | 0 | 10 | 1 | 0 |
表2 10回合队形转换50步内打击与损失统计
Table 2 Data of strike and loss within 50 steps in 10 rounds of formation change
回合 | S | D | 回合 | S | D | |
---|---|---|---|---|---|---|
1 | 1 | 0 | 6 | 0 | 0 | |
2 | 0 | 0 | 7 | 2 | 1 | |
3 | 2 | 0 | 8 | 0 | 0 | |
4 | 1 | 0 | 9 | 1 | 0 | |
5 | 0 | 0 | 10 | 1 | 0 |
回合 | D1/m | Δ1/m | 回合 | D1/m | Δ1/m | |
---|---|---|---|---|---|---|
1 | 119.3 | 0.7 | 6 | 108.2 | 11.8 | |
2 | 114.7 | 5.3 | 7 | 103.9 | 16.1 | |
3 | 100.2 | 19.8 | 8 | 114.2 | 5.8 | |
4 | 118.9 | 1.1 | 9 | 119.1 | 0.9 | |
5 | 117.3 | 2.7 | 10 | 119.3 | 0.7 |
表3 10回合队形转换50步内打击与损失统计
Table 3 The gap between the current distance and the edge of the attack zone in 10 rounds
回合 | D1/m | Δ1/m | 回合 | D1/m | Δ1/m | |
---|---|---|---|---|---|---|
1 | 119.3 | 0.7 | 6 | 108.2 | 11.8 | |
2 | 114.7 | 5.3 | 7 | 103.9 | 16.1 | |
3 | 100.2 | 19.8 | 8 | 114.2 | 5.8 | |
4 | 118.9 | 1.1 | 9 | 119.1 | 0.9 | |
5 | 117.3 | 2.7 | 10 | 119.3 | 0.7 |
算法 | 回合数 | 胜率/% | 平均战损 |
---|---|---|---|
fix_rule_no_att算法 | 10 | 0 | 3.8 |
Beta算法 | 10 | 100 | 1.4 |
表4 作战结果
Table 4 Combat result
算法 | 回合数 | 胜率/% | 平均战损 |
---|---|---|---|
fix_rule_no_att算法 | 10 | 0 | 3.8 |
Beta算法 | 10 | 100 | 1.4 |
[1] |
杨伟. 关于未来战斗机发展的若干讨论[J]. 航空学报, 2020, 41(6):524337.
|
doi: 10.7527/S1000-6893.2020.24377 |
|
[2] |
刘冰雁, 叶雄兵, 周赤非, 等. 基于改进DQN的复合模式在轨服务资源分配[J]. 航空学报, 2020, 41(5): 323630.
doi: 10.7527/S1000-6893.2019.23630 |
doi: 10.7527/S1000-6893.2019.23630 |
|
[3] |
|
[4] |
张耀中, 徐佳林, 姚康佳, 等. 基于DDPG算法的无人机集群追击任务[J]. 航空学报, 2020, 41(10):324000.
doi: 10.7527/S1000-6893.2020.24000 |
doi: 10.7527/S1000-6893.2020.24000 |
|
[5] |
|
[6] |
|
[7] |
王俊敏, 姜青山, 罗泽明. 预警机指挥编队协同空战分层决策模型[J]. 海军航空工程学院学报, 2014, 29(5):491-496.
|
|
|
[8] |
付跃文, 王元诚, 陈珍, 等. 基于多智能体粒子群的协同空战目标决策研究[J]. 系统仿真学报, 2018, 30(11):4151-4157.
doi: 10.16182/j.issn1004731x.joss.201811013 |
|
|
[9] |
文永明, 石晓荣, 黄雪梅, 等. 一种无人机集群对抗多耦合任务智能决策方法[J]. 宇航学报, 2021, 42(4):504-512.
|
|
|
[10] |
程先峰, 严勇杰. 基于MAXQ分层强化学习的有人机/无人机协同路径规划研究[J]. 信息化研究, 2020, 46(1):13-19.
|
|
|
[11] |
吴宜珈, 赖俊, 陈希亮, 等. 强化学习算法在超视距空战辅助决策上的应用研究[J]. 航空兵器, 2021, 28(2):55-61.
|
|
|
[12] |
|
[13] |
冷鹏飞, 徐朝阳. 一种深度强化学习的雷达辐射源个体识别方法[J]. 兵工学报, 2018, 39(12):2420-2426.
doi: 10.3969/j.issn.1000-1093.2018.12.016 |
|
|
[14] |
朱建文, 赵长见, 李小平, 等. 基于强化学习的集群多目标分配与智能决策方法[J]. 兵工学报, 2021, 42(9):2040-2048.
|
|
|
[15] |
陈中原, 韦文书, 陈万春. 基于强化学习的多发导弹协同攻击智能制导律[J]. 兵工学报, 2021, 42(8):1638-1647.
|
|
|
[16] |
高昂, 董志明, 叶红兵, 等. 基于深度强化学习的巡飞弹突防控制决策[J]. 兵工学报, 2021, 42(5):1101-1110.
doi: 10.3969/j.issn.1000-1093.2021.05.023 |
|
|
[17] |
刘冰雁, 叶雄兵, 岳智宏, 等. 基于多组并行深度Q网络的连续空间追逃博弈算法[J]. 兵工学报, 2021, 42(3):663-672.
doi: 10.3969/j.issn.1000-1093.2021.03.024 |
|
|
[18] |
|
[19] |
惠俊鹏, 汪韧, 俞启东. 基于强化学习的再入飞行器“新质”走廊在线生成技术研究[J]. 航空学报, 2022, 43(9):623-635.
|
|
|
[20] |
罗杰, 董志岩, 翟鹏, 等. 基于强化学习算法的智能飞控开发系统[J]. 计算机系统应用, 2022, 31(7):93-98.
|
|
|
[21] |
魏航. 基于强化学习的无人机空中格斗算法研究[D]. 哈尔滨: 哈尔滨工业大学, 2015.
|
|
|
[22] |
中国电子科技集团公司认知与智能技术重点实验室. MaCA环境说明[R]. 北京: 中国电子科技集团公司第五十一研究所, 2019:1-20.
|
China Electronics Technology Group Corporation Key Laboratory of Cognitive and Intelligent Technology. MaCA environment description[R]. Beijing: The 51st Research Institute of China Electronics Technology Group Corporation, 2019:1-20. (in Chinese)
|
No related articles found! |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||