兵工学报 ›› 2023, Vol. 44 ›› Issue (6): 1537-1546.doi: 10.12382/bgxb.2022.0177
李超1,2, 王瑞星1,*(), 黄建忠1, 江飞龙3, 魏雪梅1, 孙延鑫1
收稿日期:
2022-03-21
上线日期:
2023-06-30
LI Chao1,2, WANG Ruixing1,*(), HUANG Jianzhong1, JIANG Feilong3, WEI Xuemei1, SUN Yanxin1
Received:
2022-03-21
Online:
2023-06-30
摘要:
无人集群将深刻地塑造战争样式,为提升无人集群自主决策算法能力,对异构无人集群攻防对抗自主决策方法进行研究。对无人集群对抗模型设计进行总体概述,并对无人集群攻防对抗场景进行模型设计;针对无人集群自主决策采用强化学习技术广泛存在的稀疏奖励问题,提出基于局部回报重塑的奖励机制设定方法;在此基础上叠加优先经验回放,有效地改善稀疏奖励问题;通过程序仿真和演示系统设计,验证该方法的优越性。该方法的研究将加速基于强化学习技术的无人集群自主决策算法网络收敛过程,对无人集群自主决策算法研究具有重要意义。
李超, 王瑞星, 黄建忠, 江飞龙, 魏雪梅, 孙延鑫. 稀疏奖励下基于强化学习的无人集群自主决策与智能协同[J]. 兵工学报, 2023, 44(6): 1537-1546.
LI Chao, WANG Ruixing, HUANG Jianzhong, JIANG Feilong, WEI Xuemei, SUN Yanxin. Autonomous Decision-making and Intelligent Collaboration of UAV Swarms Based on Reinforcement Learning with Sparse Rewards[J]. Acta Armamentarii, 2023, 44(6): 1537-1546.
图8 基于局部回报重塑及PER的无人集群对抗自主决策与智能协同策略学习方法框架
Fig.8 Framework for autonomous decision-making and intelligent collaboration strategy learning method for UAV swarm confrontation based on local reward reshaping and prioritized experience replay
算法 | 算法效果 | 性能提升 |
---|---|---|
DQN +局部回报重塑算法 | 训练2000代,策略收敛,胜率约80%。 | |
Double DQN+局部回报重塑算法 | 训练1500代,策略收敛,胜率约80%。 | 提升25% |
Double DQN+局部回报重塑+PER算法 | 训练700代,策略收敛,胜率约80%。 | 提升65% |
表1 无人集群攻防对抗算法效率对比
Table 1 Efficiency comparison forattack-defense confrontation algorithms of UAV swarms
算法 | 算法效果 | 性能提升 |
---|---|---|
DQN +局部回报重塑算法 | 训练2000代,策略收敛,胜率约80%。 | |
Double DQN+局部回报重塑算法 | 训练1500代,策略收敛,胜率约80%。 | 提升25% |
Double DQN+局部回报重塑+PER算法 | 训练700代,策略收敛,胜率约80%。 | 提升65% |
[1] |
王莉. 人工智能在军事领域的渗透与应用思考[J]. 科技导报, 2017, 35(15):15-19.
|
|
|
[2] |
罗德林, 徐扬, 张金鹏. 无人机集群对抗技术新进展[J]. 科技导报, 2017, 35(7): 26-31.
|
|
|
[3] |
梁晓龙, 侯岳奇, 胡利平, 等. 无人集群试验评估研究现状分析及理论方法[J]. 南京航空航天大学学报, 2020, 52(6): 846-854.
|
|
|
[4] |
朱建文, 赵长见, 李小平, 等. 基于强化学习的集群多目标分配与智能决策方法[J]. 兵工学报, 2021, 42(9): 2040-2048.
|
doi: 10.3969/j.issn.1000-1093.2021.09.025 |
|
[5] |
杜威, 丁世飞. 多智能体强化学习综述[J]. 计算机科学, 2019, 46(8):1-8.
doi: 10.11896/j.issn.1002-137X.2019.08.001 |
doi: 10.11896/j.issn.1002-137X.2019.08.001 |
|
[6] |
郭宪, 方勇纯. 深入浅出强化学习[M]. 北京: 电子工业出版社, 2018:1-10.
|
|
|
[7] |
陈智超. 基于深度强化学习的无人潜航器智能对抗决策[D]. 哈尔滨: 哈尔滨工业大学, 2020.
|
|
|
[8] |
doi: 10.1109/TNSRE.2017.2700395 pmid: 28475063 |
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
杨瑞, 严江鹏, 李秀. 强化学习稀疏奖励算法研究——理论与实验[J]. 智能系统学报, 2020, 15(5): 888-899.
|
|
|
[14] |
方嘉良. 基于强化学习的稀疏奖励问题研究[D]. 北京: 中国地质大学, 2020:29-39.
|
|
|
[15] |
杨惟轶, 白辰甲, 蔡超, 等. 深度强化学习中稀疏奖励问题研究综述[J]. 计算机科学, 2020, 47(3):182-191.
doi: 10.11896/jsjkx.190200352 |
|
|
[16] |
王瑞星. 含有稀疏奖励的异构多智能体强化学习对抗方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2021.
|
|
|
[17] |
王瑞星, 董诗音, 江飞龙, 等. 稀疏奖励下基于强化学习的异构多智能体对抗[J]. 信息技术, 2021(5):12-20.
|
|
|
[18] |
李理, 李旭光, 郭凯杰, 等. 国产化环境下基于强化学习的地空协同作战仿真[J]. 兵工学报, 2022, 43(增刊1): 74-81.
|
doi: 10.12382/bgxb.2022.A005 |
|
[19] |
|
[20] |
doi: 10.1109/TITS.2020.3042670 URL |
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[1] | 李松, 麻壮壮, 张蕴霖, 邵晋梁. 基于安全强化学习的多智能体覆盖路径规划[J]. 兵工学报, 2023, 44(S2): 101-113. |
[2] | 曹子建, 孙泽龙, 闫国闯, 傅妍芳, 杨博, 李秦洁, 雷凯麟, 高领航. 基于强化学习的无人机集群对抗策略推演仿真[J]. 兵工学报, 2023, 44(S2): 126-134. |
[3] | 张继雄, 李宗刚, 宁小刚, 陈引娟. 动态事件触发下一般线性多智能体系统完全分布式一致性控制[J]. 兵工学报, 2023, 44(S2): 223-234. |
[4] | 杨加秀, 李新凯, 张宏立, 王昊. 基于积分强化学习的四旋翼无人机鲁棒跟踪[J]. 兵工学报, 2023, 44(9): 2802-2813. |
[5] | 张建东, 王鼎涵, 杨啟明, 史国庆, 陆屹, 张耀中. 基于分层强化学习的无人机空战多维决策[J]. 兵工学报, 2023, 44(6): 1547-1563. |
[6] | 郑泽新, 李伟, 邹鲲, 李艳福. 基于强化学习的对空雷达抗干扰波形设计[J]. 兵工学报, 2023, 44(5): 1422-1430. |
[7] | 于镝, 王亚洁, 赵博, 刘琼. 动态事件触发机制下多智能体系统固定时间跟踪[J]. 兵工学报, 2023, 44(5): 1403-1413. |
[8] | 赵文飞, 陈健, 王, 滕克难. 基于强化学习的海上要地群协同防空动态火力分配[J]. 兵工学报, 2023, 44(11): 3516-3528. |
[9] | 蒋岩, 丁语嫣, 张兴龙, 徐昕. 基于模型预测与策略学习的智能车辆人机协同控制算法[J]. 兵工学报, 2023, 44(11): 3465-3477. |
[10] | 李佳键, 史彦军, 杨雨, 李波, 赵熙俊. 无人集群作战任务的多智能体强化学习卸载决策[J]. 兵工学报, 2023, 44(11): 3295-3309. |
[11] | 丁伟, 明振军, 王国新, 阎艳. 基于多层次LSTM网络的多智能体攻防效能动态预测模型[J]. 兵工学报, 2023, 44(1): 176-192. |
[12] | 孔国杰, 冯时, 于会龙, 巨志扬, 龚建伟. 无人集群系统协同运动规划技术综述[J]. 兵工学报, 2023, 44(1): 11-26. |
[13] | 卫宁, 王冠. 强化学习在智能无人系统决策管理中的应用[J]. 兵工学报, 2022, 43(S2): 164-169. |
[14] | 李理, 李旭光, 郭凯杰, 史超, 陈昭文. 国产化环境下基于强化学习的地空协同作战仿真[J]. 兵工学报, 2022, 43(S1): 74-81. |
[15] | 魏连震, 龚建伟, 陈慧岩, 李子睿, 龚乘. 基于强化学习补偿的地面无人战车行进间跟瞄自适应控制[J]. 兵工学报, 2022, 43(8): 1947-1955. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||