Safe-DRL：无人平台安全深度强化学习决策算法

doi:10.12382/bgxb.2025.0030

兵工学报

• • 下一篇

Safe-DRL：无人平台安全深度强化学习决策算法

杨帆^1,2，李雪原^1*()，杜明刚² ，姜雨彤² ，刘琦¹

(1. 北京理工大学机械与车辆学院, 北京 100081; 2.中国北方车辆研究所槐树岭实验室, 北京 100072)

收稿日期:2025-01-08 修回日期:2025-07-16
通讯作者: *邮箱：lixueyuan@bit.edu.cn
基金资助:
国家自然科学基金项目(524B2162)

Safe-DRL: A Safety-Conscious Deep Reinforcement Learning Decision-Making Algorithm for Unmanned Platforms

YANG Fan^1,2，LI Xueyuan^1*(), DU Minggang², JIANG Yutong², LIU Qi¹

(1. School of Mechanical Engineering, Beijing Institute of Technology, Beijing 100081, China; 2. Chinese Scholartree Ridge SKL, China Northern Vehicle Research Institute, Beijing 100072, China)

Received:2025-01-08 Revised:2025-07-16

摘要/Abstract

摘要： 针对传统深度强化学习（Deep Reinforcement Learning, DRL）在推理过程中存在不可预测行为带来的安全性问题，提出一种面向无人平台自动驾驶的多任务场景安全DRL算法。基于改进的马尔可夫过程，引入动作判定网络以实现预执行安全评估，采用并行双线程网络结构有效抑制危险驾驶行为，并结合运动学特性设计了新型奖励函数，以兼顾驾驶安全性与效率。在highway-env环境下，所提算法在单行道、十字路口和环岛三种典型驾驶场景中进行了对比实验。研究结果表明，所提算法显著提升了驾驶安全性和泛化能力，有效支持无人平台在远程部署、物资运输及区域渗透等自动驾驶任务中的应用需求。

关键词: 无人平台, 自动驾驶, 马尔可夫过程, 深度强化学习

Abstract: To address the safety issue of unpredictable behaviors in traditional Deep Reinforcement Learning (DRL) during inference, this paper proposes a safety-enhanced DRL algorithm for autonomous driving in unmanned platforms across multi-task scenarios. The algorithm integrates an improved Markov process with an action evaluation network for pre-execution safety assessment and adopts a parallel dual-thread network architecture to suppress hazardous driving behaviors. Additionally, a novel kinematics-based reward function is designed to balance driving safety and efficiency. Experiments conducted in the highway-env environment across three typical driving scenarios—single-lane roads, intersections, and roundabouts—demonstrate that the proposed algorithm significantly improves driving safety and generalization capability. The results verify its effectiveness and potential for supporting unmanned platform applications such as remote deployment, cargo transportation, and regional penetration.

Key words: unmanned platform, autonomous driving, Markov process, deep reinforcement learning

中图分类号:

TP183

杨帆, 李雪原, 杜明刚, 姜雨彤, 刘琦. Safe-DRL：无人平台安全深度强化学习决策算法[J]. 兵工学报, doi: 10.12382/bgxb.2025.0030.

YANG Fan, LI Xueyuan, DU Minggang, JIANG Yutong, LIU Qi. Safe-DRL: A Safety-Conscious Deep Reinforcement Learning Decision-Making Algorithm for Unmanned Platforms[J]. Acta Armamentarii, doi: 10.12382/bgxb.2025.0030.

[1]	马雨薇, 武伟超, 王伟, 牛爱林, 郭志明, 杨建新. 面向无人平台建筑内导航的地图轻量化处理与楼梯区域分类方法[J]. 兵工学报, 2025, 46(6): 240483-.
[2]	路潇然, 邹渊, 张旭东, 孙巍, 孟逸豪, 张彬. 基于Munchausen-PER算法优化的混合动力履带车辆能量管理策略[J]. 兵工学报, 2025, 46(6): 240498-.
[3]	周桢林, 龙腾, 刘大卫, 孙景亮, 钟建鑫, 李俊志. 基于强化学习冲突消解的大规模无人机集群航迹规划方法[J]. 兵工学报, 2025, 46(5): 241146-.
[4]	先苏杰, 王康, 曾鑫, 宋杰, 吴志林. 基于深度强化学习的落角和视场角约束制导律[J]. 兵工学报, 2025, 46(4): 240435-.
[5]	李传浩, 明振军, 王国新, 阎艳, 丁伟, 万斯来, 丁涛. 基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法[J]. 兵工学报, 2025, 46(3): 240251-.
[6]	肖扬, 苏波, 纪超, 杨德真, 周桐. 基于STPA和Bow-Tie模型的地面无人平台系统安全分析方法[J]. 兵工学报, 2024, 45(S2): 153-161.
[7]	孙浩, 黎海青, 梁彦, 马超雄, 吴翰. 基于知识辅助深度强化学习的巡飞弹组动态突防决策[J]. 兵工学报, 2024, 45(9): 3161-3176.
[8]	董明泽, 温庄磊, 陈锡爱, 杨炅坤, 曾涛. 安全凸空间与深度强化学习结合的机器人导航方法[J]. 兵工学报, 2024, 45(12): 4372-4382.
[9]	傅妍芳, 雷凯麟, 魏佳宁, 曹子建, 杨博, 王炜, 孙泽龙, 李秦洁. 基于演员-评论家框架的层次化多智能体协同决策方法[J]. 兵工学报, 2024, 45(10): 3385-3396.
[10]	赵熙俊, 崔星, 李兆冬, 王一全, 杨雨. 编队机动自适应车间距保持控制[J]. 兵工学报, 2023, 44(S2): 44-51.
[11]	陈亚萍, 王楠, 洪华杰, 刘召阳, 闫响达. 面向多无人平台区域监视任务的信息素正向激励栅格方法[J]. 兵工学报, 2023, 44(9): 2859-2870.
[12]	熊光明, 于全富, 胡秀中, 周子杰, 许佳慧. 考虑平台特性的多层建筑物内履带式无人平台运动规划[J]. 兵工学报, 2023, 44(3): 841-850.
[13]	李先艳, 许威, 江磊, 孙泽源, 谢强, 曾怡, 郑冬冬. 含输入饱和的自动驾驶汽车预设性能自适应控制[J]. 兵工学报, 2023, 44(11): 3310-3319.
[14]	马也，范文慧，常天庆. 基于智能算法的无人集群防御作战方案优化方法[J]. 兵工学报, 2022, 43(6): 1415-1425.
[15]	张晚晴，余文斌，李静琳，陈万春. 基于纵程解析解的飞行器智能横程机动再入协同制导[J]. 兵工学报, 2021, 42(7): 1400-1411.

Safe-DRL：无人平台安全深度强化学习决策算法

Safe-DRL: A Safety-Conscious Deep Reinforcement Learning Decision-Making Algorithm for Unmanned Platforms

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价