
兵工学报 ›› 2024, Vol. 45 ›› Issue (9): 3204-3215.doi: 10.12382/bgxb.2023.0909
收稿日期:2023-09-08
上线日期:2024-01-26
通讯作者:
基金资助:
NIU Yilong, YANG Yi*(
), ZHANG Kai, MU Ying, WANG Qi, WANG Yingmin
Received:2023-09-08
Online:2024-01-26
摘要:
针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning, DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN, I-DQN)算法,通过联合调整无人水面艇(Unmanned Surface Vessel,USV)的动作空间、动作选择策略和奖励等,获取一条最优路径。算法采用时变动态贪婪策略,根据环境和神经网络的学习效果自适应调整USV动作选择,提高全局搜索能力并避免陷入局部最优解;结合USV所处的障碍物环境和当前位置设置分段非线性奖惩函数,保证不避碰的同时提升算法收敛速度;增加贝塞尔算法对路径平滑处理。仿真结果表明,在相同环境下新方法规划效果优于DQN算法、A*算法和人工势场算法,具有更好的稳定性、收敛性和安全性。
中图分类号:
牛奕龙, 杨仪, 张凯, 穆莹, 王奇, 王英民. 基于改进DQN算法的应召搜潜无人水面艇路径规划方法[J]. 兵工学报, 2024, 45(9): 3204-3215.
NIU Yilong, YANG Yi, ZHANG Kai, MU Ying, WANG Qi, WANG Yingmin. Path Planning Method for Unmanned Surface Vessel in On-call Submarine Search Based on Improved DQN Algorithm[J]. Acta Armamentarii, 2024, 45(9): 3204-3215.
| 参数 | 数值 | 参数 | 数值 | |
|---|---|---|---|---|
| 动作空间大小 | 8 | 隐藏层个数 | 2 | |
| 学习率α | 0.01 | 神经元个数 | 64 | |
| 衰减率γ | 0.90 | 经验池大小 | 10 000 | |
| 探索率ε | [0.01,0.99] | 取样数目 | 32 |
表1 模型训练参数
Table 1 Model training parameters
| 参数 | 数值 | 参数 | 数值 | |
|---|---|---|---|---|
| 动作空间大小 | 8 | 隐藏层个数 | 2 | |
| 学习率α | 0.01 | 神经元个数 | 64 | |
| 衰减率γ | 0.90 | 经验池大小 | 10 000 | |
| 探索率ε | [0.01,0.99] | 取样数目 | 32 |
| 算法 | 环境 尺寸/m | 平均路径 长度/m | 迭代稳定 代数 | 拐点数 | 是否 碰撞 |
|---|---|---|---|---|---|
| 10×10 | 11.66 | 136 | 4 | 是 | |
| DQN | 20×20 | 19.48 | 156 | 6 | 否 |
| 30×30 | 21.48 | 188 | 7 | 否 | |
| 10×10 | 12.83 | 141 | 2 | 否 | |
| I-DQN | 20×20 | 18.24 | 150 | 4 | 否 |
| 30×30 | 20.66 | 169 | 2 | 否 |
表2 不同环境地图下的仿真结果
Table 2 Simulated results under different environments
| 算法 | 环境 尺寸/m | 平均路径 长度/m | 迭代稳定 代数 | 拐点数 | 是否 碰撞 |
|---|---|---|---|---|---|
| 10×10 | 11.66 | 136 | 4 | 是 | |
| DQN | 20×20 | 19.48 | 156 | 6 | 否 |
| 30×30 | 21.48 | 188 | 7 | 否 | |
| 10×10 | 12.83 | 141 | 2 | 否 | |
| I-DQN | 20×20 | 18.24 | 150 | 4 | 否 |
| 30×30 | 20.66 | 169 | 2 | 否 |
| 环境尺寸/m | 平均路径长度/% | 收敛速度/% | 拐点减少数/个 |
|---|---|---|---|
| 10×10 | -10 | -3.68 | 2 |
| 20×20 | 6 | 3.85 | 2 |
| 30×30 | 3.82 | 10.11 | 5 |
表3 I-DQN算法相比DQN算法的性能提升幅度
Table 3 Performance improvement of I-DQN compared with DQN algorithm
| 环境尺寸/m | 平均路径长度/% | 收敛速度/% | 拐点减少数/个 |
|---|---|---|---|
| 10×10 | -10 | -3.68 | 2 |
| 20×20 | 6 | 3.85 | 2 |
| 30×30 | 3.82 | 10.11 | 5 |
| 环境 | 算法 | 平均 路径 长度/m | 避开障 碍物 数/个 | 拐点 数/个 | 平均路径 长度缩短 程度/% | 拐点数 减少数/ 个 |
|---|---|---|---|---|---|---|
| 简单 | DQN | 10.54 | 2 | 6 | 10.5 | 4 |
| I-DQN | 9.54 | 3 | 2 | |||
| 复杂 | DQN | 10.95 | 3 | 5 | 14.9 | 1 |
| I-DQN | 9.53 | 4 | 4 |
表4 简单和复杂障碍物环境下的仿真数据统计对比
Table 4 Statistical comparison of simulated data under simple and complex obstacle environments
| 环境 | 算法 | 平均 路径 长度/m | 避开障 碍物 数/个 | 拐点 数/个 | 平均路径 长度缩短 程度/% | 拐点数 减少数/ 个 |
|---|---|---|---|---|---|---|
| 简单 | DQN | 10.54 | 2 | 6 | 10.5 | 4 |
| I-DQN | 9.54 | 3 | 2 | |||
| 复杂 | DQN | 10.95 | 3 | 5 | 14.9 | 1 |
| I-DQN | 9.53 | 4 | 4 |
| 算法 | 起点和终点位置 | 是否完 成任务 | 路径 长度/m | 是否 碰撞 | 拐点 数 |
|---|---|---|---|---|---|
| T型障碍物两侧 | 是 | 17.90 | 否 | 5 | |
| A* | 狭窄可行域 | 是 | 13.83 | 是 | 2 |
| 障碍物附近 | 是 | 24.97 | 是 | 6 | |
| T型障碍物两侧 | 否 | ||||
| APF | 狭窄可行域 | 是 | 16.17 | 否 | |
| 障碍物附近 | 否 | ||||
| T型障碍物两侧 | 是 | 17.07 | 否 | 5 | |
| I-DQN | 狭窄可行域 | 是 | 13.83 | 否 | 2 |
| 障碍物附近 | 是 | 25.97 | 否 | 5 |
表5 不同测试场景下各指标对比
Table 5 Comparison of indicators under different test conditions
| 算法 | 起点和终点位置 | 是否完 成任务 | 路径 长度/m | 是否 碰撞 | 拐点 数 |
|---|---|---|---|---|---|
| T型障碍物两侧 | 是 | 17.90 | 否 | 5 | |
| A* | 狭窄可行域 | 是 | 13.83 | 是 | 2 |
| 障碍物附近 | 是 | 24.97 | 是 | 6 | |
| T型障碍物两侧 | 否 | ||||
| APF | 狭窄可行域 | 是 | 16.17 | 否 | |
| 障碍物附近 | 否 | ||||
| T型障碍物两侧 | 是 | 17.07 | 否 | 5 | |
| I-DQN | 狭窄可行域 | 是 | 13.83 | 否 | 2 |
| 障碍物附近 | 是 | 25.97 | 否 | 5 |
| [1] |
|
| [2] |
郑荣, 辛传龙, 汤钟, 等. 无人水面艇自主部署自主水下机器人平台技术综述[J]. 兵工学报, 2020, 41(8):1675-1687.
doi: 10.3969/j.issn.1000-1093.2020.08.022 |
|
doi: 10.3969/j.issn.1000-1093.2020.08.022 |
|
| [3] |
|
| [4] |
刘佳, 王杰. 无人水面艇避障路径规划算法综述[J]. 计算机应用与软件, 2020, 37(8):1-10, 20.
|
|
|
|
| [5] |
李元昊, 段鹏飞, 郭绍义, 等. 船舶全局路径规划相关算法研究综述[J]. 船舶标准化工程师, 2022, 55(5):26-30,55.
|
|
|
|
| [6] |
陶亚东, 张会霞, 于海深. 水面无人艇全局路径规划常用算法简述[J]. 应用数学进展, 2022, 11(3):1400-1405.
|
|
|
|
| [7] |
|
| [8] |
|
| [9] |
张沫, 吴一卓. 基于A*算法的搬运机器人路径规划优化[J]. 现代电子技术, 2023, 46(13):135-139.
|
|
|
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
孙玉山, 王力锋, 吴菁, 等. 智能水下机器人路径规划方法综述[J]. 舰船科学技术, 2020, 42(4):1-7.
|
|
|
|
| [14] |
|
| [15] |
|
| [16] |
|
| [17] |
|
| [18] |
|
| [19] |
李涛, 彭耿, 刘磊. 远海目标散布模型研究及特性分析[J]. 战术导弹技术, 2021(3):20-27.
|
|
|
|
| [20] |
崔东华, 纪秀美, 代志恒, 等. 基于瑞利-均匀分布的AUV应召搜索目标散布区域估计方法[J]. 水下无人系统学报, 2021, 29(5):580-585.
|
|
|
|
| [21] |
张宁, 寇小明, 李斌, 等. 基于遗传算法的应召搜潜路径优化[J]. 水下无人系统学报, 2023, 31(2):244-251.
|
|
|
|
| [22] |
|
| [23] |
|
| [24] |
|
| [25] |
王冰晨, 连晓峰, 颜湘, 等. 基于深度Q网络和人工势场的移动机器人路径规划研究[J]. 计算机测量与控制, 2022, 30(11): 226-232,239.
|
|
|
|
| [26] |
许志远. 基于改进神经网络的船舶航行路径规划[J]. 舰船科学技术, 2022, 44(14):57-60.
|
|
|
|
| [27] |
徐晗, 金隼, 罗磊, 等. 基于拓扑栅格建模的AGV路径规划算法优化[J]. 计算机工程与设计, 2022, 43(1):101-109.
|
|
|
|
| [28] |
|
| [29] |
张家闻, 房浩霖, 李家旺. 基于复杂约束条件的欠驱动AUV三维路径规划[J]. 兵工学报, 2022, 43(6): 1407-1414.
doi: 10.12382/bgxb.2021.0340 |
|
doi: 10.12382/bgxb.2021.0340 |
|
| [30] |
|
| [1] | 田洪清, 马明涛, 张博, 郑讯佳. 越野环境下势场搜索树智能车辆路径规划方法[J]. 兵工学报, 2024, 45(7): 2110-2127. |
| [2] | 姬鹏, 郭明皓. 基于Frenet坐标下改进人工势场法的无人车局部路径规划[J]. 兵工学报, 2024, 45(7): 2097-2109. |
| [3] | 王霄龙, 陈洋, 胡棉, 李旭东. 基于改进深度Q网络的机器人持续监测路径规划[J]. 兵工学报, 2024, 45(6): 1813-1823. |
| [4] | 潘作栋, 周悦, 郭威, 徐高飞, 孙宇. 基于CB-RRT*算法的滩涂履带车路径规划[J]. 兵工学报, 2024, 45(4): 1117-1128. |
| [5] | 李松, 麻壮壮, 张蕴霖, 邵晋梁. 基于安全强化学习的多智能体覆盖路径规划[J]. 兵工学报, 2023, 44(S2): 101-113. |
| [6] | 卢颖, 庞黎晨, 陈雨思, 宋婉莹, 傅妍芳. 一种面向城市战的无人机路径规划群智能算法[J]. 兵工学报, 2023, 44(S2): 146-156. |
| [7] | 陶俊峰, 刘海鸥, 关海杰, 陈慧岩, 臧政. 基于可通行度估计的无人履带车辆路径规划[J]. 兵工学报, 2023, 44(11): 3320-3332. |
| [8] | 胡致远, 王征, 杨洋, 尹洋. 基于人工鱼群-蚁群算法的UUV三维全局路径规划[J]. 兵工学报, 2022, 43(7): 1676-1684. |
| [9] | 郭威, 吴凯, 周悦, 孙洪鸣, 徐高飞, 高森. 基于蚁群算法的深海着陆车路径规划[J]. 兵工学报, 2022, 43(6): 1387-1394. |
| [10] | 张韬, 项祺, 郑婉文, 孙宇祥, 周献中. 基于改进A*算法的路径规划在海战兵棋推演中的应用[J]. 兵工学报, 2022, 43(4): 960-968. |
| [11] | 陈雨荻, 熊智, 刘建业, 杨闯, 晁丽君, 彭杨. 基于海马体的面向未知复杂环境类脑导航技术综述[J]. 兵工学报, 2022, 43(11): 2965-2980. |
| [12] | 赵鹏程, 宋保维, 毛昭勇, 丁文俊. 基于改进的复合自适应遗传算法的UUV水下回收路径规划[J]. 兵工学报, 2022, 43(10): 2598-2608. |
| [13] | 田洪清, 王建强, 黄荷叶, 丁峰. 越野环境下基于势能场模型的智能车概率图路径规划方法[J]. 兵工学报, 2021, 42(7): 1496-1505. |
| [14] | 郑荣, 辛传龙, 汤钟, 宋涛. 无人水面艇自主部署自主水下机器人平台技术综述[J]. 兵工学报, 2020, 41(8): 1675-1687. |
| [15] | 邓海鹏, 麻斌, 赵海光, 吕良, 刘宇. 自主驾驶车辆紧急避障的路径规划与轨迹跟踪控制[J]. 兵工学报, 2020, 41(3): 585-594. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||
京公网安备11010802024360号 京ICP备05059581号-4