兵工学报 ›› 2023, Vol. 44 ›› Issue (11): 3295-3309.doi: 10.12382/bgxb.2023.0810
所属专题: 群体协同与自主技术
李佳键1,2, 史彦军1,2,*(), 杨雨1,3, 李波3,4, 赵熙俊3,4
收稿日期:
2023-08-29
上线日期:
2023-11-05
通讯作者:
基金资助:
LI Jiajian1,2, SHI Yanjun1,2,*(), YANG Yu1,3, LI Bo3,4, ZHAO Xijun3,4
Received:
2023-08-29
Online:
2023-11-05
摘要:
近年来,任务卸载作为保障无人集群高效协同作战的关键技术之一,正成为研究热点。任务卸载旨在克服单平台算力不足、能量有限等约束,将计算任务卸载到边缘网络的服务器上进行处理,以达到降本增效的目的。以无人集群辅助的天地一体化协同侦察为作战场景,考虑战时复杂多变的电磁环境以及集群组网拓扑时变性,利用Lyapunov优化把长期任务卸载解耦为在线马尔可夫决策过程。为解决混合动作空间收敛难、学习效率底的问题,结合凸优化和多智能体深度确定性策略,分层求解功率分配和任务分配问题,提出数据-模型双层优化驱动的多智能体强化学习卸载决策算法。数值实验结果表明,新算法能够根据时变的战场环境自适应调整智能体任务卸载策略,达到提升传统算法性能和优化复杂多维目标的目的。
中图分类号:
李佳键, 史彦军, 杨雨, 李波, 赵熙俊. 无人集群作战任务的多智能体强化学习卸载决策[J]. 兵工学报, 2023, 44(11): 3295-3309.
LI Jiajian, SHI Yanjun, YANG Yu, LI Bo, ZHAO Xijun. Multi-agent Reinforcement Learning-based Offloading Decision for UAV Cluster Combat Tasks[J]. Acta Armamentarii, 2023, 44(11): 3295-3309.
参数 | 默认值 |
---|---|
UE数量N/个 | 5 |
UAV数量K/个 | 4 |
无人机通信半径L/m | 250 |
无人机悬停高度H/m | 15 |
每个UAU信道带宽B/MHz | 1 |
白噪声功率σ0/dBm | -113 |
UE计算频率fl/GHz | 2.4 |
UAV计算频率fe/GHz | 24 |
平均能量Eavg/J | 0.5 |
UE执行1bit所需的CPU时钟周期Xl/(cycle·bit-1) | 5000 |
UAV执行1bit所需的CPU时钟周期Xe/(cycle·bit-1) | 5000 |
时隙任务所需的计算量Ai,t | [5000, 40000] |
时隙任务卸载时所需传输的数据量Li,t | [5000, 10000] |
容忍时延 /s | 0.006 |
系统周期T/min | 10 |
时隙长度τ/s | 0.002 |
有效电容常数κ | 10-28 |
Lyapunov权重V | 0.001 |
表1 仿真参数设置
Table 1 Setting of simulation parameters
参数 | 默认值 |
---|---|
UE数量N/个 | 5 |
UAV数量K/个 | 4 |
无人机通信半径L/m | 250 |
无人机悬停高度H/m | 15 |
每个UAU信道带宽B/MHz | 1 |
白噪声功率σ0/dBm | -113 |
UE计算频率fl/GHz | 2.4 |
UAV计算频率fe/GHz | 24 |
平均能量Eavg/J | 0.5 |
UE执行1bit所需的CPU时钟周期Xl/(cycle·bit-1) | 5000 |
UAV执行1bit所需的CPU时钟周期Xe/(cycle·bit-1) | 5000 |
时隙任务所需的计算量Ai,t | [5000, 40000] |
时隙任务卸载时所需传输的数据量Li,t | [5000, 10000] |
容忍时延 /s | 0.006 |
系统周期T/min | 10 |
时隙长度τ/s | 0.002 |
有效电容常数κ | 10-28 |
Lyapunov权重V | 0.001 |
网络 | 数值 | 超参数 | 数值 |
---|---|---|---|
fc(state_dim, 64), relu | 学习率 | 0.005 | |
fc(64,64), relu | 批大小 | 1024 | |
演员 | fc(64,1), tanh | 回放池容量 | 100000 |
fc(state_dim, 64), relu | 折扣因子 | 0.95 | |
评论家 | fc(64,64), relu | 软更新温度因子 | 0.01 |
fc(64,1), tanh | 软更新间隔 | 1024 |
表2 演员-评论家网络参数设置
Table 2 Parameter settings of actor-critic networks
网络 | 数值 | 超参数 | 数值 |
---|---|---|---|
fc(state_dim, 64), relu | 学习率 | 0.005 | |
fc(64,64), relu | 批大小 | 1024 | |
演员 | fc(64,1), tanh | 回放池容量 | 100000 |
fc(state_dim, 64), relu | 折扣因子 | 0.95 | |
评论家 | fc(64,64), relu | 软更新温度因子 | 0.01 |
fc(64,1), tanh | 软更新间隔 | 1024 |
组 | 训练 次数 | 任务失败率/% | 任务处理时延/ms | 系统能耗/J | ||||||
---|---|---|---|---|---|---|---|---|---|---|
O-MADDPG | V-MADDPG | O-DDQN | O-MADDPG | V-MADDPG | O-DDQN | O-MADDPG | V-MADDPG | O-DDQN | ||
1 | 1 | 6.418 | 3.893 | 27.264 | 3.817 | 3.611 | 5.204 | 0.8797 | 0.7089 | 1.3690 |
2 | 51 | 0.418 | 8.759 | 0.660 | 3.884 | 3.723 | 4.691 | 0.0054 | 0.1727 | 0.0066 |
3 | 101 | 0.385 | 11.897 | 0.649 | 3.757 | 3.616 | 4.692 | 0.0052 | 0.2807 | 0.0065 |
4 | 150 | 0.386 | 14.437 | 0.648 | 3.757 | 3.591 | 4.688 | 0.0052 | 0.5372 | 0.0065 |
5 | 201 | 0.362 | 13.867 | 0.649 | 3.655 | 3.574 | 4.691 | 0.0051 | 0.3072 | 0.0065 |
6 | 251 | 0.372 | 13.804 | 0.647 | 3.698 | 3.486 | 4.678 | 0.0051 | 0.3296 | 0.0065 |
均值 | 1.390 | 11.109 | 5.086 | 3.761 | 3.600 | 4.774 | 0.151 | 0.3894 | 0.234 |
表3 仿真结果分析
Table 3 Analysis of simulated results
组 | 训练 次数 | 任务失败率/% | 任务处理时延/ms | 系统能耗/J | ||||||
---|---|---|---|---|---|---|---|---|---|---|
O-MADDPG | V-MADDPG | O-DDQN | O-MADDPG | V-MADDPG | O-DDQN | O-MADDPG | V-MADDPG | O-DDQN | ||
1 | 1 | 6.418 | 3.893 | 27.264 | 3.817 | 3.611 | 5.204 | 0.8797 | 0.7089 | 1.3690 |
2 | 51 | 0.418 | 8.759 | 0.660 | 3.884 | 3.723 | 4.691 | 0.0054 | 0.1727 | 0.0066 |
3 | 101 | 0.385 | 11.897 | 0.649 | 3.757 | 3.616 | 4.692 | 0.0052 | 0.2807 | 0.0065 |
4 | 150 | 0.386 | 14.437 | 0.648 | 3.757 | 3.591 | 4.688 | 0.0052 | 0.5372 | 0.0065 |
5 | 201 | 0.362 | 13.867 | 0.649 | 3.655 | 3.574 | 4.691 | 0.0051 | 0.3072 | 0.0065 |
6 | 251 | 0.372 | 13.804 | 0.647 | 3.698 | 3.486 | 4.678 | 0.0051 | 0.3296 | 0.0065 |
均值 | 1.390 | 11.109 | 5.086 | 3.761 | 3.600 | 4.774 | 0.151 | 0.3894 | 0.234 |
[1] |
李超, 王瑞星, 黄建忠, 等. 稀疏奖励下基于强化学习的无人集群自主决策与智能协同[J]. 兵工学报, 2023, 44(6): 1537-1546.
doi: 10.12382/bgxb.2022.0177 |
doi: 10.12382/bgxb.2022.0177 |
|
[2] |
吕震华, 高亢. 美国无人集群城市作战应用发展综述[J]. 中国电子科学研究院学报, 2020, 15(8):738-745.
|
|
|
[3] |
胡鹏林, 赵春晖, 胡劲文, 等. 拒止环境无人机集群协同感知与自主控制[C]// 第40届中国控制会议论文集(15). 上海: CNKI, 2021: 728-733.
|
|
|
[4] |
孙立健, 周鋆, 朱承, 等. 马赛克战兵力设计下的边缘指挥与控制组织结构[J]. 指挥与控制学报, 2022, 8(2):141-149.
|
|
|
[5] |
doi: 10.1109/MCE.2016.2590118 URL |
[6] |
陈霄, 王潋, 刘巍, 等. 美军机动边缘信息服务能力现状概述[J]. 电光与控制, 2021, 28(7): 62-67.
|
|
|
[7] |
陈霄, 刘巍, 夏淋淋, 等. 边缘计算军事应用需求及作战运用构想[J]. 火力与指挥控制, 2021, 46(8):1-4.
|
|
|
[8] |
薛建强, 史彦军, 李波. 面向无人集群的边缘计算技术综述[J]. 兵工学报, 2023, 44(9):2546-2555.
doi: 10.12382/bgxb.2022.1209 |
|
|
[9] |
王万斌. 面向战术智能终端任务的移动边缘计算卸载策略研究[D]. 成都: 电子科技大学, 2022.
|
|
|
[10] |
doi: 10.1007/s12083-021-01160-z |
[11] |
doi: 10.1109/JIOT.2022.3182119 URL |
[12] |
缪家辉, 郑镐, 谢正昊, 等. 数字孪生辅助UAV网络计算卸载优化[J/OL]. 北京邮电大学学报, 2022, 45(6):133-139. DOI:10.13190/j.jbupt.2022-181.
|
|
|
[13] |
|
[14] |
|
[15] |
赵晓焱, 韩威, 张俊娜, 等. 基于异步深度强化学习的车联网协作卸载策略[J/OL]. 计算机应用. 2023:1-11,DOI:10.11772/j.issn.1001-9081.2023050788.
|
|
|
[16] |
doi: 10.1109/TVT.2022.3197627 URL |
[17] |
刘晓宇, 许驰, 曾鹏, 等. 面向异构工业任务高并发计算卸载的深度强化学习算法[J]. 计算机学报, 2021, 44(12):2367-2381.
|
|
|
[18] |
doi: 10.1371/journal.pone.0172395 URL |
[19] |
|
[20] |
|
[21] |
|
[22] |
doi: 10.1109/TVT.25 URL |
[23] |
|
[24] |
|
[25] |
doi: 10.1016/j.comcom.2022.06.017 URL |
[26] |
苏维亚, 徐飞, 王森. 基于改进MADDPG的UAV轨迹和计算卸载联合优化算法[J/OL]. 计算机系统应用, 2023, 32(11). DOI: 10.15888/j.cnki.csa.009277.
|
|
|
[27] |
李慧. 基于强化学习的无人机用户自适应边缘计算卸载策略研究[D]. 深圳: 哈尔滨工业大学(深圳), 2021.
|
|
|
[28] |
doi: 10.1016/j.adhoc.2022.102981 URL |
[29] |
doi: 10.1109/TSIPN.2022.3150911 URL |
[30] |
|
[31] |
栗志. 基于MEC的计算卸载及资源分配算法研究[D]. 南京: 南京邮电大学, 2021.
|
|
|
[32] |
doi: 10.1109/TVT.2021.3102161 URL |
[33] |
杨力, 马伟东, 郭江宇, 等. 陆战场中的计算卸载和资源分配[J]. 火力与指挥控制, 2023, 48(4):17-23,31.
|
|
[1] | 李正杰,陈红印,谢军伟,张浩为,刘斌. 一种防空服务质量模型下的集中式多输入多输出雷达三维机动跟踪功率分配方法[J]. 兵工学报, 2024, 45(4): 1321-1331. |
[2] | 薛建强, 史彦军, 李波. 面向无人集群的边缘计算技术综述[J]. 兵工学报, 2023, 44(9): 2546-2555. |
[3] | 权申明, 王竹, 晁涛, 杨明. 基于虚拟再入角的快速离轨制动制导方法[J]. 兵工学报, 2023, 44(3): 865-875. |
[4] | 曹昊哲, 刘全攀. 基于半直接法的无人集群协同视觉SLAM算法[J]. 兵工学报, 2023, 44(11): 3345-3358. |
[5] | 沈宇婷, 孟新, 高跃清. 面向无人集群目标分配的层次化信息传播方法[J]. 兵工学报, 2023, 44(10): 3006-3025. |
[6] | 马也, 范文慧, 常天庆. 基于智能算法的无人集群防御作战方案优化方法[J]. 兵工学报, 2022, 43(6): 1415-1425. |
[7] | 黄文俊, 李旭, 杨明强, 梁亚楠, 吴贺禹. 无线自组网分布式编码域非正交多址机制性能分析[J]. 兵工学报, 2022, 43(12): 3082-3092. |
[8] | 曹俊, 郑翠娥, 孙大军, 张殿伦. 基于凸优化的水下载体定位研究[J]. 兵工学报, 2017, 38(3): 520-526. |
[9] | 黄中瑞, 周青松, 张剑云. 基于多输入多输出雷达发射方向图综合的波形设计[J]. 兵工学报, 2016, 37(5): 851-858. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||