兵工学报 ›› 2025, Vol. 46 ›› Issue (4): 240300-.doi: 10.12382/bgxb.2024.0300
潘云伟1, 李敏1,*(), 曾祥光1, 黄傲1, 张加衡1, 任文哲1, 彭倍2
收稿日期:
2024-04-17
上线日期:
2025-04-30
通讯作者:
基金资助:
PAN Yunwei1, LI Min1,*(), ZENG Xiangguang1, HUANG Ao1, ZHANG Jiaheng1, REN Wenzhe1, PENG Bei2
Received:
2024-04-17
Online:
2025-04-30
摘要:
自主式水下潜航器(Autonomous Underwater Vehicle,AUV)作为重要的水下探测工具之一,广泛应用于各种海洋军事行动中。现有的AUV避障和路径规划研究多集中于网格地图,较少考虑AUV在水下的真实机动情况。针对该问题,提出一种基于积极经验回放机制的改进近端策略优化(Positive-experience Retraining Proximal Policy Optimization,PR-PPO)算法和人工势场的AUV避障与路径规划方法。利用仿真软件中AUV模型自身传感器和水下环境构建动态人工势场。基于PR-PPO强化学习算法,通过与环境交互进行学习,建立AUV状态与动作之间的映射关系,无需动力学模型和地图信息,即可实现实时避障和路径规划。研究结果表明,与传统的竞争双深度Q网络算法和近端策略优化算法相比,所提算法不仅能保证任务的成功率,还缩短了模型训练时长,提升了收敛效果。
潘云伟, 李敏, 曾祥光, 黄傲, 张加衡, 任文哲, 彭倍. 基于人工势场和改进强化学习的自主式水下潜航器避障和航迹规划[J]. 兵工学报, 2025, 46(4): 240300-.
PAN Yunwei, LI Min, ZENG Xiangguang, HUANG Ao, ZHANG Jiaheng, REN Wenzhe, PENG Bei. AUV Obstacle Avoidance and Path Planning Based on Artificial Potential Field and Improved Reinforcement Learning[J]. Acta Armamentarii, 2025, 46(4): 240300-.
AUV参数 | 数值 | 水下场景 | 数值 |
---|---|---|---|
长度/m | 1.5 | 范围/m | 100×100 |
直径/m | 0.2 | 水密度/(kg·m-3) | 1000 |
速度/(m·s-1) | 2 | 水黏度/(Pa·s) | 0.001 |
质量/kg | 40 | 水流速/(m·s-1) | 0~0.5 |
表1 AUV仿真参数
Table 1 AUV simulation parameters
AUV参数 | 数值 | 水下场景 | 数值 |
---|---|---|---|
长度/m | 1.5 | 范围/m | 100×100 |
直径/m | 0.2 | 水密度/(kg·m-3) | 1000 |
速度/(m·s-1) | 2 | 水黏度/(Pa·s) | 0.001 |
质量/kg | 40 | 水流速/(m·s-1) | 0~0.5 |
参数 | 数值 | 参数 | 数值 |
---|---|---|---|
ka | 5 | 激活函数 | ReLu |
kr | 15 | 衰减因子 | 0.99 |
积极经验提取系数 | 0.01 | 经验库尺寸 | 1×104 |
状态个数 | 12 | 小批量尺寸 | 256 |
动作个数 | 6 | 批训练轮数 | 10 |
ηa | 3×10-4 | 梯度截断 | 0.5 |
ηc | 3×10-4 | 回合最大步数 | 1×105 |
隐藏层数 | 2 | 经验回放常数 | 0.95 |
表2 算法参数
Table 2 Algorithm parameters
参数 | 数值 | 参数 | 数值 |
---|---|---|---|
ka | 5 | 激活函数 | ReLu |
kr | 15 | 衰减因子 | 0.99 |
积极经验提取系数 | 0.01 | 经验库尺寸 | 1×104 |
状态个数 | 12 | 小批量尺寸 | 256 |
动作个数 | 6 | 批训练轮数 | 10 |
ηa | 3×10-4 | 梯度截断 | 0.5 |
ηc | 3×10-4 | 回合最大步数 | 1×105 |
隐藏层数 | 2 | 经验回放常数 | 0.95 |
场景 | 平均奖励 | 平均步数 | 平均路径长度/m | 成功率/% |
---|---|---|---|---|
地图1 | -110 | 995 | 124 | 99 |
地图2 | -261 | 1403 | 141 | 95 |
地图3 | -100 | 1437 | 127 | 96 |
地图4 | -242 | 1340 | 141 | 96 |
表3 算法验证
Table 3 Algorithm validation
场景 | 平均奖励 | 平均步数 | 平均路径长度/m | 成功率/% |
---|---|---|---|---|
地图1 | -110 | 995 | 124 | 99 |
地图2 | -261 | 1403 | 141 | 95 |
地图3 | -100 | 1437 | 127 | 96 |
地图4 | -242 | 1340 | 141 | 96 |
算法 | 奖励值 | 步数 | 路径长度/m |
---|---|---|---|
D3QN算法 | -1371±302 | 1900±148 | 207±25 |
PPO算法 | -821±140 | 1731±116 | 144±5 |
PR-PPO算法 | -513±52 | 1519±71 | 142±0.5 |
表4 鲁棒性对比
Table 4 Robustness contrast
算法 | 奖励值 | 步数 | 路径长度/m |
---|---|---|---|
D3QN算法 | -1371±302 | 1900±148 | 207±25 |
PPO算法 | -821±140 | 1731±116 | 144±5 |
PR-PPO算法 | -513±52 | 1519±71 | 142±0.5 |
[1] |
王圣洁, 康凤举, 韩翃. 潜艇与智能无人水下航行器协同系统控制体系及决策研究[J]. 兵工学报, 2017, 38(2):335-344.
doi: 10.3969/j.issn.1000-1093.2017.02.018 |
|
|
[2] |
丁文俊, 张国宗, 刘海旻, 等. 面向海流扰动和通信时延的欠驱动AUV编队跟踪控制[J]. 兵工学报, 2024, 45(1):184-196.
doi: 10.12382/bgxb.2023.0417 |
doi: 10.12382/bgxb.2023.0417 |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
杨静, 吴金平, 刘剑, 等. 一种半监督学习潜艇规避防御智能决策方法[J]. 兵工学报, 2024, 45(10):3474-3487.
doi: 10.12382/bgxb.2023.0684 |
doi: 10.12382/bgxb.2023.0684 |
|
[10] |
|
[11] |
|
[12] |
闫皎洁, 张锲石, 胡希平. 基于强化学习的路径规划技术综述[J]. 计算机工程, 2021, 47(10):16-25.
doi: 10.19678/j.issn.1000-3428.0060683 |
doi: 10.19678/j.issn.1000-3428.0060683 |
|
[13] |
|
[14] |
王思鹏, 杜昌平, 郑耀. 基于强化学习的扑翼飞行器路径规划算法[J]. 控制与决策, 2022, 37(4):851-860.
|
|
|
[15] |
|
[16] |
|
[17] |
武建国, 石凯, 刘健, 等. 6000m AUV“潜龙一号”浮力调节系统开发及试验研究[J]. 海洋技术学报, 2014, 33(5):1-7.
|
|
|
[18] |
|
[19] |
|
[20] |
朱伟达. 基于改进型人工势场法的车辆避障路径规划研究[D]. 镇江: 江苏大学, 2017.
|
|
|
[21] |
翟丽, 张雪莹, 张闲, 等. 基于势场法的无人车局部动态避障路径规划算法[J]. 北京理工大学学报, 2022, 42(7):696-705.
|
|
[1] | 何洋, 李刚. 基于速度障碍模型的智能汽车轨迹规划控制方法研究[J]. 兵工学报, 2025, 46(4): 240058-. |
[2] | 先苏杰, 王康, 曾鑫, 宋杰, 吴志林. 基于深度强化学习的落角和视场角约束制导律[J]. 兵工学报, 2025, 46(4): 240435-. |
[3] | 王浩凝, 郭杰, 万泱泱, 张宝超, 唐胜景, 李响. 考虑射向位置调节的高超声速滑翔飞行器编队控制方法[J]. 兵工学报, 2025, 46(4): 240410-. |
[4] | 李雅轩, 刘新福. 基于精确凸松弛的固定翼无人机实时轨迹规划[J]. 兵工学报, 2025, 46(3): 240362-. |
[5] | 李传浩, 明振军, 王国新, 阎艳, 丁伟, 万斯来, 丁涛. 基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法[J]. 兵工学报, 2025, 46(3): 240251-. |
[6] | 张旺, 邵学辉, 唐慧龙, 魏建林, 王伟. 一种探索率自适应设置的强化学习雷达干扰决策方法[J]. 兵工学报, 2025, 46(3): 240357-. |
[7] | 肖柳骏, 李雅轩, 刘新福. 基于强化学习的高超声速滑翔飞行器自适应末制导[J]. 兵工学报, 2025, 46(2): 240222-. |
[8] | 李宗刚, 韩森, 陈引娟, 宁小刚. 基于角度搜索和深度Q网络的移动机器人路径规划算法[J]. 兵工学报, 2025, 46(2): 240265-. |
[9] | 李诗颖, 丁应和, 孙海文, 许正, 李烨, 唐恩博. 规模化无人集群共识模型与协同控制方法[J]. 兵工学报, 2024, 45(S2): 113-122. |
[10] | 胡明哲, 李旭光, 任智颖, 曾帅. 基于改进启发函数的A*算法的无人机三维路径规划[J]. 兵工学报, 2024, 45(S1): 302-307. |
[11] | 胡砚洋, 何凡, 白成超. 高超声速飞行器末制导段协同避障决策方法[J]. 兵工学报, 2024, 45(9): 3147-3160. |
[12] | 孙浩, 黎海青, 梁彦, 马超雄, 吴翰. 基于知识辅助深度强化学习的巡飞弹组动态突防决策[J]. 兵工学报, 2024, 45(9): 3161-3176. |
[13] | 牛奕龙, 杨仪, 张凯, 穆莹, 王奇, 王英民. 基于改进DQN算法的应召搜潜无人水面艇路径规划方法[J]. 兵工学报, 2024, 45(9): 3204-3215. |
[14] | 陈文杰, 崔小红, 王斌锐. 安全最优跟踪控制算法与机械手仿真[J]. 兵工学报, 2024, 45(8): 2688-2697. |
[15] | 姬鹏, 郭明皓. 基于Frenet坐标下改进人工势场法的无人车局部路径规划[J]. 兵工学报, 2024, 45(7): 2097-2109. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||