兵工学报 ›› 2025, Vol. 46 ›› Issue (2): 240265-.doi: 10.12382/bgxb.2024.0265
李宗刚1,2,*(), 韩森1,2, 陈引娟1,2, 宁小刚1,2
收稿日期:
2024-04-09
上线日期:
2025-02-28
通讯作者:
基金资助:
LI Zonggang1,2,*(), HAN Sen1,2, CHEN Yinjuan1,2, NING Xiaogang1,2
Received:
2024-04-09
Online:
2025-02-28
摘要:
针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的搜索方向,减少栅格节点的遍历,提高路径规划的效率。为加强移动机器人之间的协作能力,提出一种物联网信息融合技术(Internet Information Fusion Technology,IIFT)模型,能够将多个分散的局部环境信息整合为全局信息,指导移动机器人规划路径。仿真实验结果表明:与标准DQN算法相比,AS-DQN算法可以缩短移动机器人寻得到达目标点最优路径的时间,将IIFT模型与AS-DQN算法相结合路径规划效率更加显著。实体实验结果表明:AS-DQN算法能够应用于Turtlebot3无人车,并成功找到起点至目标点的最优路径。
中图分类号:
李宗刚, 韩森, 陈引娟, 宁小刚. 基于角度搜索和深度Q网络的移动机器人路径规划算法[J]. 兵工学报, 2025, 46(2): 240265-.
LI Zonggang, HAN Sen, CHEN Yinjuan, NING Xiaogang. A Path Planning Algorithm for Mobile Robots Based on Angle Searching and Deep Q-Network[J]. Acta Armamentarii, 2025, 46(2): 240265-.
Algorithm 1 AS-DQN: |
---|
Initialization Initialize replay memory,Initialize the Q network and target network and other hyperparameters.Initialize S=0. |
1: for S<Smax do |
2: if S≠0 then sk=sk+1 |
3: else get the initial observation sk |
4: end if |
5: if S<pre.step then |
6: random select action ak |
7: else |
8: if μ<$ \epsilon $ then random select action ak |
9: else select ak= Q(sk,a,θ) |
10: end if |
11: end if |
12: if coordinate.ak=FALSE |
13: brake |
14: Store experience ek=(sk,ak,rk,sk+1) |
15: if S<decline.step then |
16: $ \epsilon = \epsilon +0.002$ |
17: end if |
18: if S>pre.step then |
19: Calculate the loss (y-Q(si,ai;θi))2 |
20: Train and update Q network’s weight θi |
21: Every Z steps copy θi to θi+1 |
22: end if |
23: end for |
表1 AS-DQN伪代码
Table 1 AS-DQN pseudocode
Algorithm 1 AS-DQN: |
---|
Initialization Initialize replay memory,Initialize the Q network and target network and other hyperparameters.Initialize S=0. |
1: for S<Smax do |
2: if S≠0 then sk=sk+1 |
3: else get the initial observation sk |
4: end if |
5: if S<pre.step then |
6: random select action ak |
7: else |
8: if μ<$ \epsilon $ then random select action ak |
9: else select ak= Q(sk,a,θ) |
10: end if |
11: end if |
12: if coordinate.ak=FALSE |
13: brake |
14: Store experience ek=(sk,ak,rk,sk+1) |
15: if S<decline.step then |
16: $ \epsilon = \epsilon +0.002$ |
17: end if |
18: if S>pre.step then |
19: Calculate the loss (y-Q(si,ai;θi))2 |
20: Train and update Q network’s weight θi |
21: Every Z steps copy θi to θi+1 |
22: end if |
23: end for |
参数名称 | 数值 |
---|---|
记忆池 | 20000 |
开始训练的经验数量 | 100 |
处理样本数量 | 32 |
目标网络更新频率 | 100 |
折扣因子γ | 0.9 |
学习率 | 0.001 |
经验回放内存值 | 500 |
选择最大Q值动作的概率ε | 0.01 |
ε最大值 | 1 |
ε增加速率 | 0.002 |
表2 神经网络的超参及数值
Table 2 Hyperparameters and numerical values of neural network
参数名称 | 数值 |
---|---|
记忆池 | 20000 |
开始训练的经验数量 | 100 |
处理样本数量 | 32 |
目标网络更新频率 | 100 |
折扣因子γ | 0.9 |
学习率 | 0.001 |
经验回放内存值 | 500 |
选择最大Q值动作的概率ε | 0.01 |
ε最大值 | 1 |
ε增加速率 | 0.002 |
机器人 | 收敛步长 | 收敛时间/s |
---|---|---|
R1 | 28000 | 372.9 |
R2 | 30000 | 446.5 |
R3 | 17000 | 258.6 |
表3 8×8地图移动机器人数据
Table 3 Mobile robot data of 8×8map
机器人 | 收敛步长 | 收敛时间/s |
---|---|---|
R1 | 28000 | 372.9 |
R2 | 30000 | 446.5 |
R3 | 17000 | 258.6 |
机器人 | 收敛步长 | 收敛时间/s |
---|---|---|
R4 | 109000 | 1510.6 |
R5 | 103000 | 1429.8 |
R6 | 75000 | 1137.2 |
表4 12×12地图移动机器人数据
Table 4 Mobile robot data of 12×12map
机器人 | 收敛步长 | 收敛时间/s |
---|---|---|
R4 | 109000 | 1510.6 |
R5 | 103000 | 1429.8 |
R6 | 75000 | 1137.2 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 27000 | 368.5 | 20.68 |
AS-DQN | 20500 | 292.3 |
表5 8×8地图静态障碍物模型数据
Table 5 Model data of static obstacle of 8×8map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 27000 | 368.5 | 20.68 |
AS-DQN | 20500 | 292.3 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 28000 | 398.1 | 23.99 |
AS-DQN | 20000 | 302.6 |
表6 8×8地图动态障碍物模型数据
Table 6 Model data of dynamic obstacle of 8×8map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 28000 | 398.1 | 23.99 |
AS-DQN | 20000 | 302.6 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 90000 | 1216.9 | 15.75 |
AS-DQN | 75000 | 1025.3 |
表7 12×12地图静态障碍物模型数据
Table 7 Model data of static obstacle of 12×12map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 90000 | 1216.9 | 15.75 |
AS-DQN | 75000 | 1025.3 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 109000 | 1510.6 | 16.54 |
AS-DQN | 85500 | 1260.7 |
表8 12×12地图动态障碍物模型数据
Table 8 Model data of dynamic obstacle of 12×12map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 109000 | 1510.6 | 16.54 |
AS-DQN | 85500 | 1260.7 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% | |||
---|---|---|---|---|---|---|
DQN | 27000 | 368.5 | ||||
AS-DQN | 20500 | 292.3 | 53.92 | |||
AS-DQN(IIFT) | 12000 | 169.8 | 41.91 |
表9 8×8地图静态障碍物模型数据
Table 9 Model data of static obstacle of 8×8map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% | |||
---|---|---|---|---|---|---|
DQN | 27000 | 368.5 | ||||
AS-DQN | 20500 | 292.3 | 53.92 | |||
AS-DQN(IIFT) | 12000 | 169.8 | 41.91 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 28000 | 398.1 | |
AS-DQN | 20000 | 302.6 | 52.65 |
AS-DQN(IIFT) | 12500 | 188.5 | 37.71 |
表10 8×8地图动态障碍物模型数据
Table 10 Model data of dynamic obstacle of 8×8map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 28000 | 398.1 | |
AS-DQN | 20000 | 302.6 | 52.65 |
AS-DQN(IIFT) | 12500 | 188.5 | 37.71 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 90000 | 1216.9 | |
AS-DQN | 75000 | 1025.3 | 40.33 |
AS-DQN(IIFT) | 56000 | 726.1 | 29.18 |
表11 12×12地图静态障碍物模型数据
Table 11 Model data of static obstacle of 12×12map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 90000 | 1216.9 | |
AS-DQN | 75000 | 1025.3 | 40.33 |
AS-DQN(IIFT) | 56000 | 726.1 | 29.18 |
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 109000 | 1510.6 | |
AS-DQN | 85500 | 1260.7 | 35.54 |
AS-DQN(IIFT) | 65000 | 973.8 | 22.76 |
表12 12×12地图动态障碍物模型数据
Table 12 Model data of dynamic obstacle of 12×12 map
算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
---|---|---|---|
DQN | 109000 | 1510.6 | |
AS-DQN | 85500 | 1260.7 | 35.54 |
AS-DQN(IIFT) | 65000 | 973.8 | 22.76 |
[1] |
王旭, 朱其新, 朱永红, 等. 面向二维移动机器人的路径规划算法综述[J]. 计算机工程与应用, 2023, 59(20):51-66.
doi: 10.3778/j.issn.1002-8331.2212-0050 |
doi: 10.3778/j.issn.1002-8331.2212-0050 |
|
[2] |
毛建旭, 贺振宇. 电力巡检机器人路径规划技术及应用综述[J]. 控制与决策, 2023, 38(11):3009-3024.
|
|
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
郭利进, 李强. 基于改进RRT*算法的移动机器人路径规划[J]. 智能系统学报, 2024, 19(05):1209-1217.
|
|
|
[12] |
|
[13] |
梅艺林, 崔立堃, 胡雪岩. 基于人工势场法的无人车路径规划与避障研究[J]. 兵器装备工程学报, 2024, 45(09):300-306.
|
|
|
[14] |
吴妮妮, 王岫鑫. 移动机器人导航路径的自主学习粒子群规划方法[J]. 机械设计与制造, 2024(7):342-346.
|
|
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
doi: 10.1109/ACCESS.2019.2918703 |
[22] |
|
[23] |
|
[24] |
史殿习, 彭滢璇, 杨焕焕, 等. 基于DQN的多智能体深度强化学习运动规划方法[J]. 计算机科学, 2024, 51(2):268-277.
|
doi: 10.11896/jsjkx.230500113 |
|
[25] |
|
[26] |
|
[27] |
王雅如, 姚得鑫, 刘增力, 等. 基于角度搜索的移动机器人路径规划方法[J]. 系统仿真学报, 2024, 36(7):1643-1654.
doi: 10.16182/j.issn1004731x.joss.23-0407 |
doi: 10.16182/j.issn1004731x.joss.23-0407 |
|
[28] |
|
[1] | 胡明哲, 李旭光, 任智颖, 曾帅. 基于改进启发函数的A*算法的无人机三维路径规划[J]. 兵工学报, 2024, 45(S1): 302-307. |
[2] | 牛奕龙, 杨仪, 张凯, 穆莹, 王奇, 王英民. 基于改进DQN算法的应召搜潜无人水面艇路径规划方法[J]. 兵工学报, 2024, 45(9): 3204-3215. |
[3] | 姬鹏, 郭明皓. 基于Frenet坐标下改进人工势场法的无人车局部路径规划[J]. 兵工学报, 2024, 45(7): 2097-2109. |
[4] | 田洪清, 马明涛, 张博, 郑讯佳. 越野环境下势场搜索树智能车辆路径规划方法[J]. 兵工学报, 2024, 45(7): 2110-2127. |
[5] | 王霄龙, 陈洋, 胡棉, 李旭东. 基于改进深度Q网络的机器人持续监测路径规划[J]. 兵工学报, 2024, 45(6): 1813-1823. |
[6] | 潘作栋, 周悦, 郭威, 徐高飞, 孙宇. 基于CB-RRT*算法的滩涂履带车路径规划[J]. 兵工学报, 2024, 45(4): 1117-1128. |
[7] | 董明泽, 温庄磊, 陈锡爱, 杨炅坤, 曾涛. 安全凸空间与深度强化学习结合的机器人导航方法[J]. 兵工学报, 2024, 45(12): 4372-4382. |
[8] | 孙鹏耀, 黄炎焱, 王凯生. 基于势场增强烟花算法的二维全局路径规划[J]. 兵工学报, 2024, 45(10): 3499-3518. |
[9] | 李松, 麻壮壮, 张蕴霖, 邵晋梁. 基于安全强化学习的多智能体覆盖路径规划[J]. 兵工学报, 2023, 44(S2): 101-113. |
[10] | 鞠爽, 王晶, 王灏, 周萌. 基于GWO-WOA的执行器严重故障多移动机器人编队重构控制[J]. 兵工学报, 2023, 44(S2): 114-125. |
[11] | 卢颖, 庞黎晨, 陈雨思, 宋婉莹, 傅妍芳. 一种面向城市战的无人机路径规划群智能算法[J]. 兵工学报, 2023, 44(S2): 146-156. |
[12] | 苏波, 江磊, 刘宇飞, 邢伯阳, 李泳耀, 谭森起, 王志瑞. 移动机器人跨域跃质关键技术综述[J]. 兵工学报, 2023, 44(9): 2556-2567. |
[13] | 陶俊峰, 刘海鸥, 关海杰, 陈慧岩, 臧政. 基于可通行度估计的无人履带车辆路径规划[J]. 兵工学报, 2023, 44(11): 3320-3332. |
[14] | 尚哲, 王挺, 徐瑶, 吴英彪, 邵沛瑶, 邵士亮. 六轮摇臂移动机器人结构设计与越障动力学研究[J]. 兵工学报, 2023, 44(11): 3478-3488. |
[15] | 胡致远, 王征, 杨洋, 尹洋. 基于人工鱼群-蚁群算法的UUV三维全局路径规划[J]. 兵工学报, 2022, 43(7): 1676-1684. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||