兵工学报 ›› 2023, Vol. 44 ›› Issue (9): 2849-2858.doi: 10.12382/bgxb.2022.0669
所属专题: 智能系统与装备技术
收稿日期:
2022-07-25
上线日期:
2022-11-12
通讯作者:
基金资助:
LI Zenglin1, LI Bo1,*(), BAI Shuangxia1, MENG Bobo2
Received:
2022-07-25
Online:
2022-11-12
摘要:
针对现代空战中的无人机自主决策问题,将注意力机制(AM)与深度强化学习中的非确定性策略算法Soft Actor Critic(SAC)相结合,提出一种基于AM-SAC算法的机动决策算法。在1V1的作战背景下建立无人机3自由度运动模型和无人机近距空战模型,并利用敌我之间相对距离和相对方位角构建导弹攻击区模型。将AM引入SAC算法,构造权重网络,从而实现训练过程中奖励权重的动态调整并设计仿真实验。通过与SAC算法的对比以及在多个不同初始态势环境下的测试,验证了基于AM-SAC算法的机动决策算法具有更高的收敛速度和机动稳定性,在空战中有更好的表现,且适用于多种不同的作战场景。
中图分类号:
李曾琳, 李波, 白双霞, 孟波波. 基于AM-SAC的无人机自主空战决策[J]. 兵工学报, 2023, 44(9): 2849-2858.
LI Zenglin, LI Bo, BAI Shuangxia, MENG Bobo. UAV Autonomous Air Combat Decision-making Based on AM-SAC[J]. Acta Armamentarii, 2023, 44(9): 2849-2858.
敌方对我方相 对方位角/(°) | 我方对敌方相对 方位角/(°) | 相对初始 距离/km |
---|---|---|
96.64 | 171.04 | 7.46 |
表1 测试环境初始态势
Table 1 Initial state of test environment
敌方对我方相 对方位角/(°) | 我方对敌方相对 方位角/(°) | 相对初始 距离/km |
---|---|---|
96.64 | 171.04 | 7.46 |
作战方 | X/ km | Y/ km | Z/ km | 俯仰 角/(°) | 航向 角/(°) | 速度/ (m·s-1) |
---|---|---|---|---|---|---|
红方 | 2 | 3.5 | -3 | 2 | 50 | 70 |
蓝方 | -3.5 | 3 | 2 | 1 | -40 | 70 |
表2 敌我双方初始化位置信息
Table 2 Initial position information of both sides
作战方 | X/ km | Y/ km | Z/ km | 俯仰 角/(°) | 航向 角/(°) | 速度/ (m·s-1) |
---|---|---|---|---|---|---|
红方 | 2 | 3.5 | -3 | 2 | 50 | 70 |
蓝方 | -3.5 | 3 | 2 | 1 | -40 | 70 |
环境 | 敌方对我 方相对方 位角/(°) | 我方对敌 方相对方 位角/(°) | 相对初 始距离/ km | 我方俯 仰角/ (°) | 速度/ (m·s-1) | 敌方 俯仰 角/(°) |
---|---|---|---|---|---|---|
1 | 96.64 | 171.04 | 7.46 | 2 | 70 | 1 |
2 | 105.94 | 8.33 | 6.17 | 2 | 70 | 1 |
3 | 13.20 | 174.31 | 7.52 | 2 | 70 | 1 |
4 | 75.27 | 26.24 | 7.23 | 2 | 70 | 1 |
表3 多环境初始状态
Table 3 Initial state of multiple environments
环境 | 敌方对我 方相对方 位角/(°) | 我方对敌 方相对方 位角/(°) | 相对初 始距离/ km | 我方俯 仰角/ (°) | 速度/ (m·s-1) | 敌方 俯仰 角/(°) |
---|---|---|---|---|---|---|
1 | 96.64 | 171.04 | 7.46 | 2 | 70 | 1 |
2 | 105.94 | 8.33 | 6.17 | 2 | 70 | 1 |
3 | 13.20 | 174.31 | 7.52 | 2 | 70 | 1 |
4 | 75.27 | 26.24 | 7.23 | 2 | 70 | 1 |
环境 | 是否作战 成功 | 作战成功 步长 | 最大奖励 | 奖励收敛 回合 |
---|---|---|---|---|
1 | 是 | 236 | 495.06 | 400 |
2 | 是 | 137 | 641.37 | 600 |
3 | 是 | 214 | 539.01 | 300 |
4 | 是 | 151 | 627.08 | 500 |
表4 AM-SAC训练结果
Table 4 Training results of AM-SAC algorithm
环境 | 是否作战 成功 | 作战成功 步长 | 最大奖励 | 奖励收敛 回合 |
---|---|---|---|---|
1 | 是 | 236 | 495.06 | 400 |
2 | 是 | 137 | 641.37 | 600 |
3 | 是 | 214 | 539.01 | 300 |
4 | 是 | 151 | 627.08 | 500 |
[1] |
韩润海, 陈浩, 刘权, 等. 基于奖励塑造和D3QN的自主空战机动决策研究[C]//2021中国自动化大会论文集. 北京: 中国自动化学会, 2021:687-693.
|
|
|
[2] |
傅莉, 王晓光. 无人战机近距空战微分对策建模研究[J]. 兵工学报, 2012, 33(10):1210-1216.
|
|
|
[3] |
谢剑. 基于微分博弈论的多无人机追逃协同机动技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2015.
|
|
|
[4] |
钱炜祺, 车竞, 何开锋. 基于矩阵博弈的空战决策方法[C]//2014第二届中国指挥控制大会论文集(上). 北京:中国指挥与控制学会, 2014:408-412.
|
|
|
[5] |
徐光达, 吕超, 王光辉, 等. 基于双矩阵对策的UCAV空战自主机动决策研究[J]. 舰船电子工程, 2017, 37(11):24-28,39.
|
|
|
[6] |
|
[7] |
doi: 10.2514/3.45888 URL |
[8] |
魏强, 周德云. 基于专家系统的无人战斗机智能决策系统[J]. 火力与指挥控制, 2007(2):5-7, 12.
|
|
|
[9] |
王锐平, 高正红. 无人机空战仿真中基于机动动作库的决策模型[J]. 飞行力学, 2009, 27(6):72-75, 79.
|
|
|
[10] |
|
[11] |
|
[12] |
周德云, 李锋, 蒲小勃, 等. 基于遗传算法的飞机战术飞行动作决策[J]. 西北工业大学学报, 2002, 20(1) :109-112.
|
|
|
[13] |
张涛, 于雷, 周中良, 等. 基于变权重伪并行遗传算法的空战机动决策[J]. 飞行力学, 2012, 30(5):470-474.
|
|
|
[14] |
韩统, 崔明朗, 张伟, 等. 多无人机协同空战机动决策[J]. 兵器装备工程学报, 2020, 41(4):117-123.
|
|
|
[15] |
孙楚, 赵辉, 王渊, 等. 基于强化学习的无人机自主机动决策方法[J]. 火力与指挥控制, 2019, 44(4):142-149.
|
|
|
[16] |
|
[17] |
马文. 基于深度强化学习的空战博弈决策研究[D]. 成都: 四川大学, 2021.
|
|
|
[18] |
周攀, 黄江涛, 章胜, 等. 基于深度强化学习的智能空战决策与仿真研究[J/OL]. 航空学报:1-16.(2022-01-26)[2022-05-18].
|
|
|
[19] |
张宏鹏, 黄长强, 轩永波, 等. 基于深度神经网络的无人作战飞机自主空战机动决策[J]. 兵工学报, 2020, 41(8):1613-1622.
doi: 10.3969/j.issn.1000-1093.2020.08.016 |
doi: 10.3969/j.issn.1000-1093.2020.08.016 |
|
[20] |
王兴众, 王敏, 罗威. 基于SAC算法的作战仿真推演智能决策技术[J]. 中国舰船研究, 2021, 16(6):99-108.
|
|
|
[21] |
许如晨. 基于深度强化学习的自动驾驶策略研究[D]. 杭州: 浙江大学, 2021.
|
|
|
[22] |
李波, 白双霞, 孟波波, 等. 基于SAC算法的无人机自主空战决策算法[J/OL]. 指挥控制与仿真:1-6.(2022-09-16)[2022-10-17].
|
|
|
[23] |
|
[1] | 林森,王金刚,高宏伟. 基于全局补偿注意力机制的战场图像去雾方法[J]. 兵工学报, 2024, 45(4): 1344-1353. |
[2] | 宋晓茹, 刘康, 高嵩, 陈超波, 阎坤. 复杂战场环境下改进YOLOv5军事目标识别算法研究[J]. 兵工学报, 2024, 45(3): 934-947. |
[3] | 熊佳梅, 王永振, 燕雪峰, 魏明强. 一种基于语义引导和对比学习的战场图像去烟算法[J]. 兵工学报, 2024, 45(2): 671-683. |
[4] | 吕卫民, 孙晨峰, 任立坤, 赵杰, 李永强. 一种基于TCN-LGBM的航空发动机气路故障诊断方法[J]. 兵工学报, 2024, 45(1): 253-263. |
[5] | 周悦, 李壮壮, 郑然舜, 李军. 无人机火箭助推机构分离安全性研究[J]. 兵工学报, 2024, 45(1): 219-230. |
[6] | 禹志龙, 李颖晖, 裴彬彬, 徐文丰, 段效聪, 宋可鑫. 具有飞行包线限制的飞翼无人机鲁棒自适应容错姿态控制[J]. 兵工学报, 2024, 45(1): 231-240. |
[7] | 郭志明, 娄文忠, 李涛, 张梦宇, 白子龙, 乔虎. 基于改进蝗虫优化算法考虑任务威胁的多无人机协同航迹规划[J]. 兵工学报, 2023, 44(S2): 52-60. |
[8] | 曹子建, 孙泽龙, 闫国闯, 傅妍芳, 杨博, 李秦洁, 雷凯麟, 高领航. 基于强化学习的无人机集群对抗策略推演仿真[J]. 兵工学报, 2023, 44(S2): 126-134. |
[9] | 卢颖, 庞黎晨, 陈雨思, 宋婉莹, 傅妍芳. 一种面向城市战的无人机路径规划群智能算法[J]. 兵工学报, 2023, 44(S2): 146-156. |
[10] | 曹正阳, 张冰, 白屹轩, 勾柯楠. GNSS/INS/VNS组合定位信息融合的多无人机协同导航方法[J]. 兵工学报, 2023, 44(S2): 157-166. |
[11] | 赵军民, 何浩哲, 王少奇, 聂聪, 焦迎杰. 复杂环境下多无人机目标跟踪与避障联合航迹规划[J]. 兵工学报, 2023, 44(9): 2685-2696. |
[12] | 李思琪, 龚鹏, 单丹, 李剑锋, 刘宇, 高翔. 基于QualNet的无人机信息攻击半实物测试架构设计与实现[J]. 兵工学报, 2023, 44(9): 2709-2721. |
[13] | 黄峰, 王威雄, 林忠麟, 吴衔誉, 庄嘉权. 新型结构的四旋翼无人机视觉导航半物理仿真平台设计及试验[J]. 兵工学报, 2023, 44(9): 2836-2848. |
[14] | 曹严, 龙腾, 孙景亮, 周禹泽. 信息重传与丢包补偿的多无人机分布式任务分配方法[J]. 兵工学报, 2023, 44(9): 2697-2708. |
[15] | 秦昊林, 许廷发, 李佳男. 基于超像素注意力和孪生结构的半监督高光谱显著性目标检测[J]. 兵工学报, 2023, 44(9): 2639-2649. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||