
兵工学报 ›› 2025, Vol. 46 ›› Issue (2): 240265-.doi: 10.12382/bgxb.2024.0265
李宗刚1,2,*(
), 韩森1,2, 陈引娟1,2, 宁小刚1,2
收稿日期:2024-04-09
上线日期:2025-02-28
通讯作者:
基金资助:
LI Zonggang1,2,*(
), HAN Sen1,2, CHEN Yinjuan1,2, NING Xiaogang1,2
Received:2024-04-09
Online:2025-02-28
摘要:
针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的搜索方向,减少栅格节点的遍历,提高路径规划的效率。为加强移动机器人之间的协作能力,提出一种物联网信息融合技术(Internet Information Fusion Technology,IIFT)模型,能够将多个分散的局部环境信息整合为全局信息,指导移动机器人规划路径。仿真实验结果表明:与标准DQN算法相比,AS-DQN算法可以缩短移动机器人寻得到达目标点最优路径的时间,将IIFT模型与AS-DQN算法相结合路径规划效率更加显著。实体实验结果表明:AS-DQN算法能够应用于Turtlebot3无人车,并成功找到起点至目标点的最优路径。
中图分类号:
李宗刚, 韩森, 陈引娟, 宁小刚. 基于角度搜索和深度Q网络的移动机器人路径规划算法[J]. 兵工学报, 2025, 46(2): 240265-.
LI Zonggang, HAN Sen, CHEN Yinjuan, NING Xiaogang. A Path Planning Algorithm for Mobile Robots Based on Angle Searching and Deep Q-Network[J]. Acta Armamentarii, 2025, 46(2): 240265-.
| Algorithm 1 AS-DQN: |
|---|
| Initialization Initialize replay memory,Initialize the Q network and target network and other hyperparameters.Initialize S=0. |
| 1: for S<Smax do |
| 2: if S≠0 then sk=sk+1 |
| 3: else get the initial observation sk |
| 4: end if |
| 5: if S<pre.step then |
| 6: random select action ak |
| 7: else |
| 8: if μ<$ \epsilon $ then random select action ak |
| 9: else select ak= Q(sk,a,θ) |
| 10: end if |
| 11: end if |
| 12: if coordinate.ak=FALSE |
| 13: brake |
| 14: Store experience ek=(sk,ak,rk,sk+1) |
| 15: if S<decline.step then |
| 16: $ \epsilon = \epsilon +0.002$ |
| 17: end if |
| 18: if S>pre.step then |
| 19: Calculate the loss (y-Q(si,ai;θi))2 |
| 20: Train and update Q network’s weight θi |
| 21: Every Z steps copy θi to θi+1 |
| 22: end if |
| 23: end for |
表1 AS-DQN伪代码
Table 1 AS-DQN pseudocode
| Algorithm 1 AS-DQN: |
|---|
| Initialization Initialize replay memory,Initialize the Q network and target network and other hyperparameters.Initialize S=0. |
| 1: for S<Smax do |
| 2: if S≠0 then sk=sk+1 |
| 3: else get the initial observation sk |
| 4: end if |
| 5: if S<pre.step then |
| 6: random select action ak |
| 7: else |
| 8: if μ<$ \epsilon $ then random select action ak |
| 9: else select ak= Q(sk,a,θ) |
| 10: end if |
| 11: end if |
| 12: if coordinate.ak=FALSE |
| 13: brake |
| 14: Store experience ek=(sk,ak,rk,sk+1) |
| 15: if S<decline.step then |
| 16: $ \epsilon = \epsilon +0.002$ |
| 17: end if |
| 18: if S>pre.step then |
| 19: Calculate the loss (y-Q(si,ai;θi))2 |
| 20: Train and update Q network’s weight θi |
| 21: Every Z steps copy θi to θi+1 |
| 22: end if |
| 23: end for |
| 参数名称 | 数值 |
|---|---|
| 记忆池 | 20000 |
| 开始训练的经验数量 | 100 |
| 处理样本数量 | 32 |
| 目标网络更新频率 | 100 |
| 折扣因子γ | 0.9 |
| 学习率 | 0.001 |
| 经验回放内存值 | 500 |
| 选择最大Q值动作的概率ε | 0.01 |
| ε最大值 | 1 |
| ε增加速率 | 0.002 |
表2 神经网络的超参及数值
Table 2 Hyperparameters and numerical values of neural network
| 参数名称 | 数值 |
|---|---|
| 记忆池 | 20000 |
| 开始训练的经验数量 | 100 |
| 处理样本数量 | 32 |
| 目标网络更新频率 | 100 |
| 折扣因子γ | 0.9 |
| 学习率 | 0.001 |
| 经验回放内存值 | 500 |
| 选择最大Q值动作的概率ε | 0.01 |
| ε最大值 | 1 |
| ε增加速率 | 0.002 |
| 机器人 | 收敛步长 | 收敛时间/s |
|---|---|---|
| R1 | 28000 | 372.9 |
| R2 | 30000 | 446.5 |
| R3 | 17000 | 258.6 |
表3 8×8地图移动机器人数据
Table 3 Mobile robot data of 8×8map
| 机器人 | 收敛步长 | 收敛时间/s |
|---|---|---|
| R1 | 28000 | 372.9 |
| R2 | 30000 | 446.5 |
| R3 | 17000 | 258.6 |
| 机器人 | 收敛步长 | 收敛时间/s |
|---|---|---|
| R4 | 109000 | 1510.6 |
| R5 | 103000 | 1429.8 |
| R6 | 75000 | 1137.2 |
表4 12×12地图移动机器人数据
Table 4 Mobile robot data of 12×12map
| 机器人 | 收敛步长 | 收敛时间/s |
|---|---|---|
| R4 | 109000 | 1510.6 |
| R5 | 103000 | 1429.8 |
| R6 | 75000 | 1137.2 |
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 27000 | 368.5 | 20.68 |
| AS-DQN | 20500 | 292.3 |
表5 8×8地图静态障碍物模型数据
Table 5 Model data of static obstacle of 8×8map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 27000 | 368.5 | 20.68 |
| AS-DQN | 20500 | 292.3 |
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 28000 | 398.1 | 23.99 |
| AS-DQN | 20000 | 302.6 |
表6 8×8地图动态障碍物模型数据
Table 6 Model data of dynamic obstacle of 8×8map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 28000 | 398.1 | 23.99 |
| AS-DQN | 20000 | 302.6 |
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 90000 | 1216.9 | 15.75 |
| AS-DQN | 75000 | 1025.3 |
表7 12×12地图静态障碍物模型数据
Table 7 Model data of static obstacle of 12×12map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 90000 | 1216.9 | 15.75 |
| AS-DQN | 75000 | 1025.3 |
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 109000 | 1510.6 | 16.54 |
| AS-DQN | 85500 | 1260.7 |
表8 12×12地图动态障碍物模型数据
Table 8 Model data of dynamic obstacle of 12×12map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 109000 | 1510.6 | 16.54 |
| AS-DQN | 85500 | 1260.7 |
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% | |||
|---|---|---|---|---|---|---|
| DQN | 27000 | 368.5 | ||||
| AS-DQN | 20500 | 292.3 | 53.92 | |||
| AS-DQN(IIFT) | 12000 | 169.8 | 41.91 | |||
表9 8×8地图静态障碍物模型数据
Table 9 Model data of static obstacle of 8×8map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% | |||
|---|---|---|---|---|---|---|
| DQN | 27000 | 368.5 | ||||
| AS-DQN | 20500 | 292.3 | 53.92 | |||
| AS-DQN(IIFT) | 12000 | 169.8 | 41.91 | |||
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 28000 | 398.1 | |
| AS-DQN | 20000 | 302.6 | 52.65 |
| AS-DQN(IIFT) | 12500 | 188.5 | 37.71 |
表10 8×8地图动态障碍物模型数据
Table 10 Model data of dynamic obstacle of 8×8map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 28000 | 398.1 | |
| AS-DQN | 20000 | 302.6 | 52.65 |
| AS-DQN(IIFT) | 12500 | 188.5 | 37.71 |
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 90000 | 1216.9 | |
| AS-DQN | 75000 | 1025.3 | 40.33 |
| AS-DQN(IIFT) | 56000 | 726.1 | 29.18 |
表11 12×12地图静态障碍物模型数据
Table 11 Model data of static obstacle of 12×12map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 90000 | 1216.9 | |
| AS-DQN | 75000 | 1025.3 | 40.33 |
| AS-DQN(IIFT) | 56000 | 726.1 | 29.18 |
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 109000 | 1510.6 | |
| AS-DQN | 85500 | 1260.7 | 35.54 |
| AS-DQN(IIFT) | 65000 | 973.8 | 22.76 |
表12 12×12地图动态障碍物模型数据
Table 12 Model data of dynamic obstacle of 12×12 map
| 算法 | 收敛步长 | 收敛时间/s | 节省时间/% |
|---|---|---|---|
| DQN | 109000 | 1510.6 | |
| AS-DQN | 85500 | 1260.7 | 35.54 |
| AS-DQN(IIFT) | 65000 | 973.8 | 22.76 |
| [1] |
王旭, 朱其新, 朱永红, 等. 面向二维移动机器人的路径规划算法综述[J]. 计算机工程与应用, 2023, 59(20):51-66.
doi: 10.3778/j.issn.1002-8331.2212-0050 |
|
doi: 10.3778/j.issn.1002-8331.2212-0050 |
|
| [2] |
毛建旭, 贺振宇. 电力巡检机器人路径规划技术及应用综述[J]. 控制与决策, 2023, 38(11):3009-3024.
|
|
|
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
郭利进, 李强. 基于改进RRT*算法的移动机器人路径规划[J]. 智能系统学报, 2024, 19(05):1209-1217.
|
|
|
|
| [12] |
|
| [13] |
梅艺林, 崔立堃, 胡雪岩. 基于人工势场法的无人车路径规划与避障研究[J]. 兵器装备工程学报, 2024, 45(09):300-306.
|
|
|
|
| [14] |
吴妮妮, 王岫鑫. 移动机器人导航路径的自主学习粒子群规划方法[J]. 机械设计与制造, 2024(7):342-346.
|
|
|
|
| [15] |
|
| [16] |
|
| [17] |
|
| [18] |
|
| [19] |
|
| [20] |
|
| [21] |
doi: 10.1109/ACCESS.2019.2918703 |
| [22] |
|
| [23] |
|
| [24] |
史殿习, 彭滢璇, 杨焕焕, 等. 基于DQN的多智能体深度强化学习运动规划方法[J]. 计算机科学, 2024, 51(2):268-277.
|
|
doi: 10.11896/jsjkx.230500113 |
|
| [25] |
|
| [26] |
|
| [27] |
王雅如, 姚得鑫, 刘增力, 等. 基于角度搜索的移动机器人路径规划方法[J]. 系统仿真学报, 2024, 36(7):1643-1654.
doi: 10.16182/j.issn1004731x.joss.23-0407 |
|
doi: 10.16182/j.issn1004731x.joss.23-0407 |
|
| [28] |
|
| [1] | 胡明哲, 李旭光, 任智颖, 曾帅. 基于改进启发函数的A*算法的无人机三维路径规划[J]. 兵工学报, 2024, 45(S1): 302-307. |
| [2] | 牛奕龙, 杨仪, 张凯, 穆莹, 王奇, 王英民. 基于改进DQN算法的应召搜潜无人水面艇路径规划方法[J]. 兵工学报, 2024, 45(9): 3204-3215. |
| [3] | 姬鹏, 郭明皓. 基于Frenet坐标下改进人工势场法的无人车局部路径规划[J]. 兵工学报, 2024, 45(7): 2097-2109. |
| [4] | 田洪清, 马明涛, 张博, 郑讯佳. 越野环境下势场搜索树智能车辆路径规划方法[J]. 兵工学报, 2024, 45(7): 2110-2127. |
| [5] | 王霄龙, 陈洋, 胡棉, 李旭东. 基于改进深度Q网络的机器人持续监测路径规划[J]. 兵工学报, 2024, 45(6): 1813-1823. |
| [6] | 潘作栋, 周悦, 郭威, 徐高飞, 孙宇. 基于CB-RRT*算法的滩涂履带车路径规划[J]. 兵工学报, 2024, 45(4): 1117-1128. |
| [7] | 董明泽, 温庄磊, 陈锡爱, 杨炅坤, 曾涛. 安全凸空间与深度强化学习结合的机器人导航方法[J]. 兵工学报, 2024, 45(12): 4372-4382. |
| [8] | 孙鹏耀, 黄炎焱, 王凯生. 基于势场增强烟花算法的二维全局路径规划[J]. 兵工学报, 2024, 45(10): 3499-3518. |
| [9] | 李松, 麻壮壮, 张蕴霖, 邵晋梁. 基于安全强化学习的多智能体覆盖路径规划[J]. 兵工学报, 2023, 44(S2): 101-113. |
| [10] | 鞠爽, 王晶, 王灏, 周萌. 基于GWO-WOA的执行器严重故障多移动机器人编队重构控制[J]. 兵工学报, 2023, 44(S2): 114-125. |
| [11] | 卢颖, 庞黎晨, 陈雨思, 宋婉莹, 傅妍芳. 一种面向城市战的无人机路径规划群智能算法[J]. 兵工学报, 2023, 44(S2): 146-156. |
| [12] | 苏波, 江磊, 刘宇飞, 邢伯阳, 李泳耀, 谭森起, 王志瑞. 移动机器人跨域跃质关键技术综述[J]. 兵工学报, 2023, 44(9): 2556-2567. |
| [13] | 陶俊峰, 刘海鸥, 关海杰, 陈慧岩, 臧政. 基于可通行度估计的无人履带车辆路径规划[J]. 兵工学报, 2023, 44(11): 3320-3332. |
| [14] | 尚哲, 王挺, 徐瑶, 吴英彪, 邵沛瑶, 邵士亮. 六轮摇臂移动机器人结构设计与越障动力学研究[J]. 兵工学报, 2023, 44(11): 3478-3488. |
| [15] | 胡致远, 王征, 杨洋, 尹洋. 基于人工鱼群-蚁群算法的UUV三维全局路径规划[J]. 兵工学报, 2022, 43(7): 1676-1684. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||
京公网安备11010802024360号 京ICP备05059581号-4