• • 下一篇
FU Jinbo 1, ZHANG Dong 1*(), WANG Mengyang 1, DENG Jie 1,2
摘要: 为高效指引无人机群搜索指定区域内的多个未知动态目标,设计一种基于深度强化学习的预测驱动协同搜索决策方法(Deep Reinforcement Learning-Predictive Collaborative Search Decision Method,DRL-P-CSDM)。基于栅格化方法,综合环境信息和历史搜索信息构建环境信息图与信息确定性图,并通过设计时间衰减因子生成状态量,引导无人机进行区域重访以应对目标的主动规避,提升搜索效率。设计了一个功能分区的深度神经网络架构,能够自主对环境进行预测,避免了人工设计模型适配性差的问题。基于强化学习方法设计奖励函数,在稠密奖励中引入捕获概率,加速收敛过程,采用分布式架构,能够适应任意数量无人机的部署要求,并在通信距离受限和信息更新延迟的情况下仍能完成任务。通过算法对比、鲁棒性分析以及半实物仿真验证了方法的有效性。仿真结果表明: DRL-P-CSDM在目标检获率上较传统深度强化学习提高11.45%,任务完成时间减少48.02%,无人机生存概率提高10.31%;该方法具有较强的综合性、鲁棒性和通用性,能在多尺度复杂环境下稳定运行,不受集群规模限制,在安全监控、战场侦察、林区巡检和灾后救援等领域具有广泛的工程应用价值。
中图分类号: