摘要: 以未来战场无人地空协同作战为需求牵引,面对军事领域实战场景匮乏、训练数据不足的实际问题,聚焦仿真环境下的深度强化学习方法,实现地空协同作战仿真中多智能体决策模型。在飞腾CPU和昆仑K200硬件平台与麒麟V10操作系统环境下搭建虚拟仿真环境,设置仿真环境状态表征、各智能体动作空间及奖励机制,构建基于深度确定性策略梯度算法的多智能体模型(MADDPG),通过仿真实验验证采用MADDPG算法能够使奖励值在地空协同作战仿真场景中逐渐收敛,从而证明该模型应用于地空协同作战的决策有效性。
中图分类号:
李理, 李旭光, 郭凯杰, 史超, 陈昭文. 国产化环境下基于强化学习的地空协同作战仿真[J]. 兵工学报, 2022, 43(S1): 74-81.
LI Li, LI Xuguang, GUO Kaijie, SHI Chao, CHEN Zhaowen. Simulation of Ground-air Cooperative Combat Based on Reinforcement Learning in Localization Environment[J]. Acta Armamentarii, 2022, 43(S1): 74-81.