 
		
 
					兵工学报 ›› 2024, Vol. 45 ›› Issue (10): 3474-3487.doi: 10.12382/bgxb.2023.0684
收稿日期:2023-07-23
									
				
									
				
									
				
				
											上线日期:2024-01-11
									
			通讯作者:
					
        
               		YANG  Jing*( ), WU  Jinping**(
), WU  Jinping**( ), LIU  Jian, WANG  Yongjie, DONG  Hanquan
), LIU  Jian, WANG  Yongjie, DONG  Hanquan
			  
			
			
			
                
        
    
Received:2023-07-23
									
				
									
				
									
				
				
											Online:2024-01-11
									
			摘要:
潜艇水下作战行动中,受到水下弱可观测环境影响,获取的目标信息呈现稀疏特性。机动规避是潜艇水下防御的重要战术方法,现有机动规避参数仿真与优化方法在建模时不可避免引入观测误差,缺乏对态势演变的应对手段,且由于军事专家的稀缺性,获取军事专家标签的战术对抗样本代价十分昂贵。针对上述困难提出一种基于自编码与主动Q学习策略结合的半监督学习智能决策方法。通过引入对比预测编码自编码器,最大化时序输入与上下文间互信息熵,提高对稀疏时序输入的表征能力。将表征输入与主动强化学习任务相结合,降低智能体的标签需求率,提高规避决策时对环境反馈的能力。基于3a采集的指挥员战法研练复盘数据构建上帝视角、红方视角数据集。实验结果表明:所提算法与不采用稀疏时序自编码器的算法消融实验,在完全信息、红方视角条件下决策精度分别达到98%、78%,而标签需求率仅为4%、44%;相比于经典的时序分类算法决策精度提高了14%、9%,与有监督算法相比在标签需求率降低为原来的24%~44%条件下,决策精度误差与有监督算法仅差1%,说明所提算法在保证决策精度的同时可大幅降低标签需求量,从而为少量样本条件下的军事智能决策提供一种通用的技术框架。
中图分类号:
杨静, 吴金平, 刘剑, 王永洁, 董汉权. 一种半监督学习潜艇规避防御智能决策方法[J]. 兵工学报, 2024, 45(10): 3474-3487.
YANG Jing, WU Jinping, LIU Jian, WANG Yongjie, DONG Hanquan. A Semi-supervised Learning Method for Intelligent Decision Making of Submarine Maneuvering Evasion[J]. Acta Armamentarii, 2024, 45(10): 3474-3487.
| 实体 | 特征含义 | 
|---|---|
| 潜艇 | 经度,纬度,深度,航向,速度,探测半径,机动性能 参数(2),水声等相关参数(6),其他参数(6) | 
| 鱼雷 | 经度,纬度,深度,航向,速度,机动性能(2),探测 参数(4),剩余航程,机动参数(3),其他参数(5) | 
| 声诱饵 | 经度,纬度,释放时间,持续时间,性能参数(6) | 
| 干扰器 | 经度,纬度,释放时间,持续时间,性能参数(6) | 
表1 潜艇机动规避数据集实体特征说明
Table 1 Feature meaning of dataset for submarine maneuvering evasion
| 实体 | 特征含义 | 
|---|---|
| 潜艇 | 经度,纬度,深度,航向,速度,探测半径,机动性能 参数(2),水声等相关参数(6),其他参数(6) | 
| 鱼雷 | 经度,纬度,深度,航向,速度,机动性能(2),探测 参数(4),剩余航程,机动参数(3),其他参数(5) | 
| 声诱饵 | 经度,纬度,释放时间,持续时间,性能参数(6) | 
| 干扰器 | 经度,纬度,释放时间,持续时间,性能参数(6) | 
| 样本类型 | 奖惩因子 | 训练集 | 测试集 | ||
|---|---|---|---|---|---|
| 精度 | 标签 | 精度 | 标签 | ||
| 完全信息 | (0.7,-1.0,1.0,-0.7) | 0.98 | 0.04 | 0.98 | 0.04 | 
| (0.7,-5.0,1.0,-0.7) | 0.98 | 0.22 | 0.98 | 0.22 | |
| (0.7,-10,1.0,-0.7) | 0.98 | 0.30 | 0.98 | 0.28 | |
| 红方视角 | (0.7,-1.0,1.0,-0.7) | 0.98 | 0.04 | 0.97 | 0.04 | 
| (0.7,-5.0,1.0,-0.7) | 0.98 | 0.26 | 0.98 | 0.27 | |
| (0.7,-10,1.0,-0.7) | 0.98 | 0.32 | 0.97 | 0.32 | |
| 稀疏时序5有效步 | (0.7,-1.0,1.0,-0.7) | 0.93 | 0.14 | 0.92 | 0.14 | 
| (0.7,-5.0,1.0,-0.7) | 0.93 | 0.42 | 0.92 | 0.40 | |
| (0.7,-10,1.0,-0.7) | 0.93 | 0.47 | 0.91 | 0.47 | |
| 稀疏时序3有效步 | (0.7,-1.0,1.0,-0.7) | 0.85 | 0.40 | 0.81 | 0.40 | 
| (0.7,-5.0,1.0,-0.7) | 0.89 | 0.52 | 0.90 | 0.53 | |
| (0.7,-10,1.0,-0.7) | 0.85 | 0.40 | 0.86 | 0.51 | |
表2 奖惩因子对决策效果影响对比
Table 2 Effects of different rewards on decision-making result
| 样本类型 | 奖惩因子 | 训练集 | 测试集 | ||
|---|---|---|---|---|---|
| 精度 | 标签 | 精度 | 标签 | ||
| 完全信息 | (0.7,-1.0,1.0,-0.7) | 0.98 | 0.04 | 0.98 | 0.04 | 
| (0.7,-5.0,1.0,-0.7) | 0.98 | 0.22 | 0.98 | 0.22 | |
| (0.7,-10,1.0,-0.7) | 0.98 | 0.30 | 0.98 | 0.28 | |
| 红方视角 | (0.7,-1.0,1.0,-0.7) | 0.98 | 0.04 | 0.97 | 0.04 | 
| (0.7,-5.0,1.0,-0.7) | 0.98 | 0.26 | 0.98 | 0.27 | |
| (0.7,-10,1.0,-0.7) | 0.98 | 0.32 | 0.97 | 0.32 | |
| 稀疏时序5有效步 | (0.7,-1.0,1.0,-0.7) | 0.93 | 0.14 | 0.92 | 0.14 | 
| (0.7,-5.0,1.0,-0.7) | 0.93 | 0.42 | 0.92 | 0.40 | |
| (0.7,-10,1.0,-0.7) | 0.93 | 0.47 | 0.91 | 0.47 | |
| 稀疏时序3有效步 | (0.7,-1.0,1.0,-0.7) | 0.85 | 0.40 | 0.81 | 0.40 | 
| (0.7,-5.0,1.0,-0.7) | 0.89 | 0.52 | 0.90 | 0.53 | |
| (0.7,-10,1.0,-0.7) | 0.85 | 0.40 | 0.86 | 0.51 | |
| 决策者 | 平均决策 时间 | 策略分布 | 防御成功 概率 | 
|---|---|---|---|
| 人在回路 | +27s决策 | Ⅰ(0.64),Ⅱ(0.12),Ⅲ(0.24) | 0.84 | 
| 智能算法 | 先决策 | Ⅰ(0.96),Ⅰ(0.04) | 0.92 | 
表3 潜艇防御鱼雷决策效果分析
Table 3 Analysis for defense results
| 决策者 | 平均决策 时间 | 策略分布 | 防御成功 概率 | 
|---|---|---|---|
| 人在回路 | +27s决策 | Ⅰ(0.64),Ⅱ(0.12),Ⅲ(0.24) | 0.84 | 
| 智能算法 | 先决策 | Ⅰ(0.96),Ⅰ(0.04) | 0.92 | 
| [1] | 杨震, 赵娟. 论当代中国的海洋军事观:制海权与海上反介入[J]. 复旦国际关系评论, 2015(2): 160-179. | 
|  | |
| [2] | 佚名. 俄拟于年内完成新型鱼雷测试[J]. 现代军事, 2017, 4(4): 13. | 
| Anon. Russia plans to complete testing of new torpedoes within the year[J]. Modern Military, 2017, 4(4): 13. (in Chinese) | |
| [3] | 何心怡, 卢军, 张思宇,  等. 国外鱼雷现状与启示[J]. 数字海洋与水下攻防, 2020, 3(2): 87-93. | 
|  | |
| [4] | 吴金平. 潜艇作战建模与仿真[M]. 北京: 国防工业出版社, 2017. | 
|  | |
| [5] | 施征. 俄罗斯潜艇消音技术[续][J]. 现代舰船, 2002(7): 25-27. | 
|  | |
| [6] | 瞿幼苗. 面向智能决策的推理引擎技术[D]. 西安: 西北工业大学, 2018. | 
|  | |
| [7] | 王璐, 霍其恩, 李青山, 等基于并行搜索优化的指控系统自适应决策方法[J]. 软件学报, 2022, 33(5): 1774-1799. | 
|  | |
| [8] | 张磊潇, 胡伟文, 孙慧玲. 舰艇综合防御鱼雷的作战决策及其关联分析[J]. 兵工学报, 2020, 41(5): 967-974.  doi: 10.3969/j.issn.1000-1093.2020.05.016 | 
| doi: 10.3969/j.issn.1000-1093.2020.05.016 | |
| [9] | 曲泓玥. 基于被动声纳实景仿真的水声对抗性能优化[D]. 哈尔滨: 哈尔滨工程大学, 2020. | 
|  | |
| [10] | doi: 10.1109/JSEE.2013.00074 | 
| [11] | Anon. Defender/deceptor acoustic countermeasures[J]. Jane’s Defence Weekly, 2017, 10(11): 1-4. | 
| [12] |  | 
| [13] | 陈保香, 曹奇英, 夏祖勋. 案例推理在海军战术决策中的应用[J]. 华东船舶工业学院学报, 2000(5): 45-49. | 
|  | |
| [14] |  | 
| [15] |  | 
| [16] |  | 
| [17] |  | 
| [18] |  | 
| [19] |  | 
| [20] |  | 
| [21] |  | 
| [22] | pmid: 22997129 | 
| [23] |  | 
| [24] |  | 
| [25] | 赵东方. 主动探索强化学习算法研究[D]. 哈尔滨: 哈尔滨工业大学, 2020. | 
|  | |
| [26] |  | 
| [27] |  | 
| [28] |  | 
| [29] |  | 
| [30] | 丁永忠. 潜射自航式声诱饵发射方向研究[J]. 航空计算技术, 2014, 44(6): 59-61, 66. | 
|  | |
| [31] | 张方方, 李文哲, 董晓明,  等. 噪声干扰器作用下反潜鱼雷主动自导性能数值分析[J]. 水下无人系统学报, 2020, 28(1): 33-38. | 
|  | |
| [32] | 陈颜辉. 水面舰艇综合防御鱼雷决策关键技术[J]. 火力与指挥控制, 2019, 44(6): 102-105. | 
|  | |
| [33] | doi: 10.1162/neco.1997.9.8.1735 pmid: 9377276 | 
| [34] |  | 
| [1] | 王健, 黄英, 高晓宇, 王拓, 王绪, 惠嘉赫. 基于堆叠稀疏自编码器的多缸喷油器堵塞定位算法[J]. 兵工学报, 2024, 45(10): 3706-3717. | 
| [2] | 李炜, 韩寅龙, 孙晓静. 基于特征优选与深度学习的车载电源微小故障诊断方法[J]. 兵工学报, 2022, 43(11): 2935-2944. | 
| [3] | 朱建文, 赵长见, 李小平, 包为民. 基于强化学习的集群多目标分配与智能决策方法[J]. 兵工学报, 2021, 42(9): 2040-2048. | 
| [4] | 王健, 秦春霞, 杨珂, 任萍. 基于导向重构与降噪稀疏自编码器的合成孔径雷达目标识别[J]. 兵工学报, 2020, 41(9): 1861-1870. | 
| [5] | 费顺超, 冯永新, 刘芳, 周帆. 一种新的自编码跳码扩谱体制[J]. 兵工学报, 2019, 40(1): 134-142. | 
| 阅读次数 | ||||||
| 全文 |  | |||||
| 摘要 |  | |||||
 京公网安备11010802024360号    京ICP备05059581号-4
 京公网安备11010802024360号    京ICP备05059581号-4