
					兵工学报 ›› 2024, Vol. 45 ›› Issue (12): 4395-4406.doi: 10.12382/bgxb.2023.1009
        
               		梅泽伟1,2, 李天任3, 朱佳琳3, 邵星灵2,4,*(
), 丁天雲1,2, 刘俊1,2
                  
        
        
        
        
    
收稿日期:2023-10-13
									
				
									
				
									
				
				
											上线日期:2024-02-05
									
			通讯作者:
					基金资助:
        
               		MEI  Zewei1,2, LI  Tianren3, ZHU  Jialin3, SHAO  Xingling2,4,*(
), DING  Tianyun1,2, LIU  Jun1,2
			  
			
			
			
                
        
    
Received:2023-10-13
									
				
									
				
									
				
				
											Online:2024-02-05
									
			摘要:
针对航天飞行器气动力不足难以维持应急侧向操纵确保安全避开障碍物的问题,提出一种基于深度Q学习网络(Deep Q-learning Network, DQN)变动力智能决策的轨迹规划方法。根据变动力航天飞行器运动学方程,设计基于航程误差的纵向制导律和考虑避开障碍物的横侧向制导律,用于实时校正倾侧角的幅值和符号,保证终端制导精度和绕飞安全性。从变动力智能决策层面出发,将航天飞行器动力档位调节问题转化为马尔可夫决策过程,以攻角、马赫数以及航天飞行器与障碍物的相对距离为状态空间,以航天飞行器动力档位为动作空间,设计考虑碰撞概率和终端约束偏差的奖励函数,构建DQN网络对智能体进行训练,以得到最佳动力档位。仿真结果表明,所提算法可以赋能航天飞行器在满足终端约束条件下提升运动过程的横向避障能力。
中图分类号:
梅泽伟, 李天任, 朱佳琳, 邵星灵, 丁天雲, 刘俊. 基于DQN变动力智能决策的轨迹规划[J]. 兵工学报, 2024, 45(12): 4395-4406.
MEI Zewei, LI Tianren, ZHU Jialin, SHAO Xingling, DING Tianyun, LIU Jun. A Trajectory Planning Method Based on DQN Variable Dynamic Intelligent Decision[J]. Acta Armamentarii, 2024, 45(12): 4395-4406.
| 参数 | 数值 | 
|---|---|
| 奖励值 | R1=200, R2=R3=100, R4=16 | 
| 学习率 | 0.001 | 
| 折扣因子 | 0.99 | 
| 样品批量大小 | 256 | 
| 经验池存储容量 | 1×105 | 
表1 DQN的参数设置
Table 1 Parameter setting of DQN
| 参数 | 数值 | 
|---|---|
| 奖励值 | R1=200, R2=R3=100, R4=16 | 
| 学习率 | 0.001 | 
| 折扣因子 | 0.99 | 
| 样品批量大小 | 256 | 
| 经验池存储容量 | 1×105 | 
| 参数名称 | 相应数值 | 
|---|---|
| 倾侧角最小值/(°) | 0 | 
| 倾侧角最大值/(°) | 80 | 
| 航向角阈值/(°) | 8 | 
| 航程容忍偏差的最小值/km | 10 | 
| 马赫容忍偏差的最小值 | 30/vs | 
表2 仿真可调节参数
Table 2 Adjustable parameters of simulation
| 参数名称 | 相应数值 | 
|---|---|
| 倾侧角最小值/(°) | 0 | 
| 倾侧角最大值/(°) | 80 | 
| 航向角阈值/(°) | 8 | 
| 航程容忍偏差的最小值/km | 10 | 
| 马赫容忍偏差的最小值 | 30/vs | 
| 算法 | 高度偏 差/km  |  经纬度 偏差/(°)  |  制导 精度/%  | 
|---|---|---|---|
| 本文算法 | 0.32 | (-0.0234,-0.0291) | 58.18 | 
| 无动力决策算法[ |  0.36 | (0.0321,-0.0824) | 0 | 
表3 场景1下的仿真结果对比
Table 3 Simulates results in Scenario 1
| 算法 | 高度偏 差/km  |  经纬度 偏差/(°)  |  制导 精度/%  | 
|---|---|---|---|
| 本文算法 | 0.32 | (-0.0234,-0.0291) | 58.18 | 
| 无动力决策算法[ |  0.36 | (0.0321,-0.0824) | 0 | 
| 算法 | 高度偏 差/km  |  经纬度 偏差/(°)  |  制导 精度/%  | 
|---|---|---|---|
| 本文算法 | 0.14 | (-0.0038,-0.0201) | 98.06 | 
| 无动力决策算法[ |  0.39 | (-1.0353,0.3467) | 0 | 
表4 场景2下的仿真结果对比
Table 4 Simulated results in Scenario 2
| 算法 | 高度偏 差/km  |  经纬度 偏差/(°)  |  制导 精度/%  | 
|---|---|---|---|
| 本文算法 | 0.14 | (-0.0038,-0.0201) | 98.06 | 
| 无动力决策算法[ |  0.39 | (-1.0353,0.3467) | 0 | 
| [1] |  
											  杜万闪, 周洲, 拜昱, 等. 组合式飞行器多体动力学建模与飞行力学特性[J]. 兵工学报, 2023, 44(8): 2245-2262.  
											 												doi: 10.12382/bgxb.2022.0282  | 
										
|  
											  doi: 10.12382/bgxb.2022.0282  | 
										|
| [2] |  
											  张晚晴, 余文斌, 李静琳, 等. 基于纵程解析解的飞行器智能横程机动再入协同制导[J]. 兵工学报, 2021, 42(7): 1400-1411. 
											 											 | 
										
|  
											  doi: 10.3969/j.issn.1000-1093.2021.07.007  | 
										|
| [3] |  
											  姜丽敏, 刘海亮, 陈曙暄. 基于姿态反馈实现过载跟踪的飞行器控制方法[J]. 兵工学报, 2022, 43(8): 1835-1844.  
											 												doi: 10.12382/bgxb.2021.0111  | 
										
|  
											  doi: 10.12382/bgxb.2021.0111  | 
										|
| [4] |  
											  周亮, 王昊宇, 尚海滨, 等. 基于高斯伪谱法的天基再入飞行器滑翔轨迹优化设计研究[J]. 空天防御, 2020, 3(3): 89-95. 
											 											 | 
										
|  
											  | 
										|
| [5] |  
											  李惠峰, 谢陵. 基于预测校正方法的RLV再入制导律设计[J]. 北京航空航天大学学报, 2009, 35(11): 1344-1348. 
											 											 | 
										
|  
											  | 
										|
| [6] |  
											  | 
										
| [7] |  
											  程阳, 程林, 张庆振, 等. 基于在线约束限制的飞行器预测校正制导[J]. 北京航空航天大学学报, 2017, 43(10): 2143-2153. 
											 											 | 
										
|  
											  | 
										|
| [8] |  
											  马可, 田江. 主动拦截防护系统探测雷达防弹天线罩设计[J]. 现代雷达, 2021, 43(5): 80-84. 
											 											 | 
										
|  
											  | 
										|
| [9] |  
											  田若岑, 张庆振, 郭云鹤, 等. 基于禁飞区规避的高超声速飞行器再入制导律设计[J]. 空天防御, 2022, 5(2): 65-74. 
											 											 | 
										
|  
											  | 
										|
| [10] |  
											  章吉力, 刘凯, 樊雅卓, 等. 考虑禁飞区规避的空天飞行器分段预测校正再入制导方法[J]. 宇航学报, 2021, 42(1): 122-131. 
											 											 | 
										
|  
											  | 
										|
| [11] |  
											  赵江, 周锐, 张超. 考虑禁飞区规避的预测校正再入制导方法[J]. 北京航空航天大学学报, 2015, 41(5): 864-870. 
											 											 | 
										
|  
											  | 
										|
| [12] |  
											  | 
										
| [13] |  
											  | 
										
| [14] |  
											  | 
										
| [15] |  
											  付京博, 邵会兵, 詹韬. 基于深度强化学习的飞行器自抗扰控制技术[J]. 计算机仿真, 2022, 39(10): 54-59. 
											 											 | 
										
|  
											  | 
										|
| [16] |  
											  黄旭, 柳嘉润, 贾晨辉, 等. 深度确定性策略梯度算法用于无人飞行器控制[J]. 航空学报, 2021, 42(11): 397-407. 
											 											 | 
										
|  
											  | 
										|
| [17] |  
											  | 
										
| [18] |  
											  闫斌斌, 李勇, 戴沛, 等. 基于增强学习的变体飞行器自适应变体策略与飞行控制方法研究[J]. 西北工业大学学报, 2019, 37(4): 656-663. 
											 											 | 
										
|  
											  | 
										|
| [19] |  
											  汪韧, 惠俊鹏, 俞启东, 等. 基于LSTM模型的飞行器智能制导技术研究[J]. 力学学报, 2021, 53(7): 2047-2057. 
											 											 | 
										
|  
											  | 
										|
| [20] |  
											  惠俊鹏, 汪韧, 俞启东. 基于强化学习的再入飞行器“新质”走廊在线生成技术[J]. 航空学报, 2022, 43(9): 623-635. 
											 											 | 
										
|  
											  | 
										|
| [21] |  
											  | 
										
| [22] |  
											  | 
										
| [23] |  
											  doi: 10.1109/TCYB.2019.2914717 pmid: 31180878  | 
										
| [24] |  
											  | 
										
| [1] | 王培臣, 闫循良, 南汶江, 李新国. 考虑时间约束的近解析滑翔轨迹快速规划方法[J]. 兵工学报, 2024, 45(7): 2294-2305. | 
| [2] | 丁天雲, 夏逸, 梅泽伟, 邵星灵, 刘俊. 基于DDPG的变外形航天飞行器碰撞规避的轨迹规划方法[J]. 兵工学报, 2024, 45(11): 3903-3914. | 
| [3] | 贾一飞, 蒋朝阳. 动态可重构自适应无人车辆编队系统[J]. 兵工学报, 2024, 45(10): 3654-3673. | 
| [4] | 杨静, 吴金平, 刘剑, 王永洁, 董汉权. 一种半监督学习潜艇规避防御智能决策方法[J]. 兵工学报, 2024, 45(10): 3474-3487. | 
| [5] | 方秋雨, 张蕴霖, 麻壮壮, 邵晋梁. 未知环境下基于控制障碍函数的无人车轨迹规划[J]. 兵工学报, 2023, 44(S2): 90-102. | 
| [6] | 周孝添, 任宏斌, 苏波, 齐志权, 汪洋. 基于微分平坦的分层轨迹规划算法[J]. 兵工学报, 2023, 44(2): 394-405. | 
| [7] | 朱建文, 赵长见, 李小平, 包为民. 基于强化学习的集群多目标分配与智能决策方法[J]. 兵工学报, 2021, 42(9): 2040-2048. | 
| [8] | 唐传林, 黄长强, 杜海文, 黄汉桥, 丁达理, 罗畅. 无人作战飞行器编队协同攻击轨迹规划研究[J]. 兵工学报, 2014, 35(4): 523-530. | 
| [9] | 陈国达, 计时鸣, 金明生, 张才. 面向等残余面形误差的分层修形模具气囊抛光轨迹规划方法[J]. 兵工学报, 2012, 33(6): 724-729. | 
| 阅读次数 | ||||||
| 
												        	全文 | 
											        	
												        	 | 
													|||||
| 
												        	摘要 | 
												        
															 | 
													|||||
 京公网安备11010802024360号    京ICP备05059581号-4