兵工学报 ›› 2021, Vol. 42 ›› Issue (3): 663-672.doi: 10.3969/j.issn.1000-1093.2021.03.024
• 论文 • 上一篇
刘冰雁1,2, 叶雄兵1, 岳智宏2, 董献洲1, 张其扬2
LIU Bingyan1,2, YE Xiongbing1, YUE Zhihong2, DONG Xianzhou1, ZHANG Qiyang2
摘要: 为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度Q网络(DQN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习复杂且耗时不足,设计基于多组并行DQN的PEG算法。以4轮战车PEG问题为例设计仿真环境与运动模型,进行了运动计算,并与Q-learning算法、基于资格迹的强化学习算法、基于奖励的遗传算法结果相比对。仿真实验结果表明,连续空间PEG算法能够较好地解决连续空间PEG问题,且随着学习次数的增加不断提升问题处理能力,具备自主学习耗时少、追捕应用时间短的比较优势。
中图分类号: