 
		
 
					兵工学报 ›› 2023, Vol. 44 ›› Issue (S2): 101-113.doi: 10.12382/bgxb.2023.0881
所属专题: 群体协同与自主技术
收稿日期:2023-09-06
									
				
									
				
									
				
				
											上线日期:2024-01-10
									
			通讯作者:
					基金资助:
        
               		LI  Song1, MA  Zhuangzhuang1, ZHANG  Yunlin1, SHAO  Jinliang1,2,3,*( )
)
			  
			
			
			
                
        
    
Received:2023-09-06
									
				
									
				
									
				
				
											Online:2024-01-10
									
			摘要:
覆盖路径规划的目的是为智能体找到一条安全的轨迹,其不仅可以有效覆盖任务区域,而且可以避开障碍物与邻近智能体。在执行覆盖任务时,复杂的大面积任务区域总是不可避免的。如何在保证智能体安全的前提下加强智能体之间的协同合作,以改善集群任务效率低、能力不足的缺点是值得探索的问题。为此,利用栅格地图建立离散的覆盖路径规划数学模型,提出一种基于值分解网络的安全多智能体强化学习算法,并通过理论证明论证其合理性。该算法通过分解群体价值函数以避免智能体的虚假奖励,有助于加强智能体之间协同覆盖策略的学习,以提高算法的收敛速度。通过在训练过程中引入屏蔽器以修正智能体的出界和碰撞等行为,保证智能体在整个任务过程中的安全。仿真和半实物实验结果表明,新算法不仅可以保证智能体的覆盖效率,同时还能有效维护智能体的安全。
中图分类号:
李松, 麻壮壮, 张蕴霖, 邵晋梁. 基于安全强化学习的多智能体覆盖路径规划[J]. 兵工学报, 2023, 44(S2): 101-113.
LI Song, MA Zhuangzhuang, ZHANG Yunlin, SHAO Jinliang. Multi-agent Coverage Path Planning Based on Security Reinforcement Learning[J]. Acta Armamentarii, 2023, 44(S2): 101-113.
| 算法1 安全约束模块 | 
| 1:收集t时刻智能体i的状态 和预执行动作 2:预测t+1时刻智能体状态 3:if 出界or碰撞do 4: =stop, =-c,c∈R+ 5:else 6: = 7: 执行动作 ,观测奖励 和 8:end if | 
| 算法1 安全约束模块 | 
| 1:收集t时刻智能体i的状态 和预执行动作 2:预测t+1时刻智能体状态 3:if 出界or碰撞do 4: =stop, =-c,c∈R+ 5:else 6: = 7: 执行动作 ,观测奖励 和 8:end if | 
| 算法2 ε-贪婪法方法 | 
| 1:获取当前轮数episode,随机数rand 2:ε= ×episode+εmin 3:if rand≥ε do 4: =random(A) 5:else 6: =arg ( (st), ) 7:end if | 
| 算法2 ε-贪婪法方法 | 
| 1:获取当前轮数episode,随机数rand 2:ε= ×episode+εmin 3:if rand≥ε do 4: =random(A) 5:else 6: =arg ( (st), ) 7:end if | 
| 算法3 策略网络训练 | 
| 1:随机初始化网络 … 参数θ1…θn 2:for episode=1,2,…,episodemax do 3: reset环境, ←0 4: for step=1,2,…,stepmax do 5: for i=1,2,…,N do 6: 根据算法2获取预执行动作 7: 收集 ,根据算法1获取有效样本 8: 更新网络 参数θi 9: end for 10: end for 11: if mean( )≥goalth do 12: break 13: end if 14:end for | 
| 算法3 策略网络训练 | 
| 1:随机初始化网络 … 参数θ1…θn 2:for episode=1,2,…,episodemax do 3: reset环境, ←0 4: for step=1,2,…,stepmax do 5: for i=1,2,…,N do 6: 根据算法2获取预执行动作 7: 收集 ,根据算法1获取有效样本 8: 更新网络 参数θi 9: end for 10: end for 11: if mean( )≥goalth do 12: break 13: end if 14:end for | 
| 超参数 | 值 | 
|---|---|
| 网络学习率 | 0.001 | 
| 单隐藏层神经元数 | 64 | 
| 折扣因子 | 0.99 | 
| 网络更新间隔/轮 | 20 | 
| 最小贪婪系数 | 0.05 | 
| 最大贪婪系数 | 0.95 | 
| 到达最大贪婪系数轮数 | 2000 | 
| 最大运行轮数 | 2000 | 
| 奖励阈值 | 4500 | 
| 地图尺寸 | 10 | 
| 平均分栈容量 | 100 | 
| 最大运行步数 | 30/120 | 
| 智能体数量 | 4/1 | 
表1 实验中用到的超参数
Table 1 Hyperparameters used in experiments
| 超参数 | 值 | 
|---|---|
| 网络学习率 | 0.001 | 
| 单隐藏层神经元数 | 64 | 
| 折扣因子 | 0.99 | 
| 网络更新间隔/轮 | 20 | 
| 最小贪婪系数 | 0.05 | 
| 最大贪婪系数 | 0.95 | 
| 到达最大贪婪系数轮数 | 2000 | 
| 最大运行轮数 | 2000 | 
| 奖励阈值 | 4500 | 
| 地图尺寸 | 10 | 
| 平均分栈容量 | 100 | 
| 最大运行步数 | 30/120 | 
| 智能体数量 | 4/1 | 
| 算法 | 覆盖率/% | 重复率/% | 
|---|---|---|
| VDN_safe | 100.0 | 28.1 | 
| center_safe | 93.8 | 35.4 | 
| singal_safe | 99.0 | 24.0 | 
| VDN_unsafe | 99.0 | 30.2 | 
| center_unsafe | 89.5 | 39.5 | 
| singal_unsafe | 95.8 | 29.1 | 
表2 算法覆盖性能对比
Table 2 Comparison of algorithm overlay performances
| 算法 | 覆盖率/% | 重复率/% | 
|---|---|---|
| VDN_safe | 100.0 | 28.1 | 
| center_safe | 93.8 | 35.4 | 
| singal_safe | 99.0 | 24.0 | 
| VDN_unsafe | 99.0 | 30.2 | 
| center_unsafe | 89.5 | 39.5 | 
| singal_unsafe | 95.8 | 29.1 | 
| 实验 | 覆盖率/% | 重复率/% | 
|---|---|---|
| 10×10单障碍物 | 100.0 | 28.1 | 
| 10×10多障碍物 | 100.0 | 32.6 | 
| 20×20单障碍物 | 99.5 | 22.0 | 
| 20×20多障碍物 | 98.9 | 22.9 | 
表3 对比实验结果
Table 3 Results of the comparative experiments
| 实验 | 覆盖率/% | 重复率/% | 
|---|---|---|
| 10×10单障碍物 | 100.0 | 28.1 | 
| 10×10多障碍物 | 100.0 | 32.6 | 
| 20×20单障碍物 | 99.5 | 22.0 | 
| 20×20多障碍物 | 98.9 | 22.9 | 
| 智能体个数 | 覆盖率/% | 重复率/% | 
|---|---|---|
| 3 | 97.9 | 26.5 | 
| 4 | 98.9 | 22.9 | 
| 5 | 98.9 | 24.2 | 
| 6 | 99.2 | 25.5 | 
表4 不同智能体个数的覆盖性能
Table 4 Coverage performances of different number of agents
| 智能体个数 | 覆盖率/% | 重复率/% | 
|---|---|---|
| 3 | 97.9 | 26.5 | 
| 4 | 98.9 | 22.9 | 
| 5 | 98.9 | 24.2 | 
| 6 | 99.2 | 25.5 | 
| [1] | doi: 10.1109/ACCESS.2021.3108177 URL | 
| [2] | 李波, 杨志鹏, 贾卓然, 等. 一种无监督学习型神经网络的无人机全区域侦察路径规划[J]. 西北工业大学学报, 2021, 39(1):77-84. | 
| doi: 10.1051/jnwpu/20213910077 URL | |
| [3] | 吴文超, 黄长强, 宋磊, 等. 不确定环境下的多无人机协同搜索航路规划[J]. 兵工学报, 2011, 32(11): 1337-1342. | 
|  | |
| [4] |  | 
| [5] |  | 
| [6] |  | 
| [7] |  | 
| [8] |  | 
| [9] |  | 
| [10] |  | 
| [11] |  | 
| [12] | 李御驰, 闫军涛, 宋志华, 等. 基于遗传算法的无人机监视覆盖航路规划算法研究[J]. 计算机科学与应用, 2019, 9(6): 1208-1215. | 
| doi: 10.12677/CSA.2019.96135 URL | |
| [13] |  | 
| [14] |  | 
| [15] |  | 
| [16] | 张伟, 王乃新, 魏世琳, 等. 水下无人潜航器集群发展现状及关键技术综述[J]. 哈尔滨工程大学学报, 2020, 41(2): 289-297. | 
|  | |
| [17] | 罗志远, 刘小峰, 陈俊风, 等. 一种基于分步遗传算法的多无人清洁车区域覆盖路径规划方法[J]. 电子测量与仪器学报, 2020, 34(8):43-50. | 
|  | |
| [18] |  | 
| [19] |  | 
| [20] |  | 
| [21] | 王雪松, 王荣荣, 程玉虎. 安全强化学习综述[J]. 自动化学报, 2023, 49(9): 1813-1835. | 
|  | |
| [22] | doi: 10.1017/S0269888912000057 URL | 
| [23] |  | 
| [24] |  | 
| [1] | 张继雄, 李宗刚, 宁小刚, 陈引娟. 动态事件触发下一般线性多智能体系统完全分布式一致性控制[J]. 兵工学报, 2023, 44(S2): 223-234. | 
| [2] | 于镝, 王亚洁, 赵博, 刘琼. 动态事件触发机制下多智能体系统固定时间跟踪[J]. 兵工学报, 2023, 44(5): 1403-1413. | 
| [3] | 孔国杰, 冯时, 于会龙, 巨志扬, 龚建伟. 无人集群系统协同运动规划技术综述[J]. 兵工学报, 2023, 44(1): 11-26. | 
| [4] | 周绍磊, 赵学远, 祁亚辉, 王帅磊. 有向切换拓扑条件下考虑暂态响应的多智能体H∞一致性控制[J]. 兵工学报, 2020, 41(2): 356-365. | 
| [5] | 曹昊哲, 吴炎烜, 周峰, 王正杰. 带有避碰机制的2阶非线性多智能体系统包围编队研究[J]. 兵工学报, 2016, 37(9): 1646-1654. | 
| 阅读次数 | ||||||
| 全文 |  | |||||
| 摘要 |  | |||||
 京公网安备11010802024360号    京ICP备05059581号-4
 京公网安备11010802024360号    京ICP备05059581号-4