手机版 客户端

基于先验策略的集成深度强化学习在非结构化地形下无人履带车辆安全–效率平衡导航研究 MDPI WEVJ

  基于先验策略的集成深度强化学习在非结构化地形下无人履带车辆安全–效率平衡导航研究 MDPI WEVJ。论文标题:Safety–Efficiency Balanced Navigation for Unmanned Tracked Vehicles in Uneven Terrain Using Prior-Based Ensemble Deep Reinforcement Learning

   论文链接:https://www.mdpi.com/2032-6653/16/7/359

   期刊名:World Electric Vehicle Journal (WEVJ)

   期刊主页:https://www.mdpi.com/journal/wevj

   文章导读

   在建筑工程、山地搜救、行星探测等复杂场景中,无人履带车辆 (UTVs) 凭借其强大的地形适应性成为核心装备。然而,非结构化地形 (如崎岖山地、松软戈壁) 中的履带打滑、地形起伏干扰,以及传统导航算法探索效率低、部署风险高 的痛点,长期制约着无人履带车的安全与效率平衡。来自南通大学电气与自动化学院的徐一鸣教授等研究者在World Electric Vehicle Journal (WEVJ) 期刊发表了文章,提出了一种基于先验策略的集成深度强化学习算法 (SAC-HP),为复杂环境下无人履带车的智能导航提供了全新解决方案。

   SAC-HP 框架。混合策略通过结合基于%20SAC%20的深度强化学习策略得到的,该策略由多个单一%20SAC%20策略组成,并以状态S作为输入,DWA%20控制器则使用无人履带车(UTV)的位置信息作为输入。

  %20研究过程与结果

  %20传统导航算法仅依赖目标位置%20+%20障碍物距离的基础状态,难以应对非结构化地形的干扰。研究团队创新性地扩展了状态空间,新增两大关键信息:

  %20(1)%20局部高程信息:基于数字高程模型%20(DEM),将车辆周围10m范围内的地形高程以20×20网格形式输入模型,让车辆实时感知坑洼、陡坡等危险区域。

  %20(2)%20姿态变化特征:引入连续时间步的车辆位置变化%20(Δx、Δy)%20和航向角变化%20(Δφ),结合前一时刻的履带控制指令,无需建立复杂打滑模型即可隐性学习打滑干扰,动态调整行驶策略。通过这一设计,无人履带车能像有经验的驾驶员一样,提前规避崎岖地形,自主抵消打滑影响。实验显示,相比未引入扩展状态的模型,该设计使车辆轨迹振荡幅度降低35%,在打滑区域的导航成功率提升20%。

  %20为解决传统强化学习探索效率低、部署风险高的问题,研究团队提出集成SAC与DWA先验的混合高斯策略%20(SAC-HP)。集成SAC网络采用K个独立SAC策略网络组成集成模型,通过融合多网络的输出%20(计算均值与方差),减少单一模型的输出方差,提升策略鲁棒性;DWA先验策略将经典动态窗口法%20(DWA)%20的最优控制指令%20(转化为左右履带角速度)作为安全先验,以固定方差%20(0.3)%20的高斯分布形式融入决策;混合高斯策略通过公式融合RL策略与先验策略的高斯分布,既保留DWA在早期探索中的安全引导作用%20(减少高风险动作),又发挥SAC的自主学习能力(适应复杂地形)。这一设计使算法收敛速度较传统SAC提升16%,在60m×100m的大尺度非结构化环境中,首次探索即可找到安全路径,避免传统算法初期频繁碰撞的问题。

   不同方法奖励曲线对比

   随机环境规划效果

   研究总结

   本研究提出了一种基于先验集成深度强化学习 (SAC-HP) 的无人履带车自主导航方法,以实现复杂非结构化地形下的安全与效率平衡。该方法融合深度强化学习策略与动态窗口法 (DWA) 的先验控制信息,构建混合高斯策略以提高探索效率与部署安全性。通过引入地形高程信息与姿态变化特征,模型能够自适应应对崎岖地形和履带打滑问题。同时,在奖励函数中加入能量优化项,有效抑制速度振荡并实现平滑、高效的导航。仿真结果表明,所提算法较传统SAC提升收敛速度16%,在复杂地形中的成功率提高6%,并显著改善轨迹平顺性与能耗表现。该研究为无人履带车辆在复杂环境下的智能自主导航提供了新思路。

   引用格式:

   Xu, Y.; Zhu, S.; Zhang, D.; Fang, Y.; Van, M. Safety–Efficiency Balanced Navigation for Unmanned Tracked Vehicles in Uneven Terrain Using Prior-Based Ensemble Deep Reinforcement Learning. World Electr. Veh. J. 2025, 16, 359.

   WEVJ期刊介绍

   主编:Joeri Van Mierlo, Vrije Universiteit Brussel, Belgium

   WEVJ(ISSN 2032-6653)是首个全面涵盖电池电动汽车、混合动力电动汽车和燃料电池电动汽车相关研究的同行评审国际科学期刊。为响应学术界的需求,本刊旨在与国际电动汽车研讨会暨展览会(EVS)相辅相成。自1969年创办以来,国际电动汽车研讨会暨展览会(EVS)系列活动始终走在电动汽车领域的前沿,并已发展成为全球规模最大、最具影响力的电动汽车行业、学术界和研究盛会,展示了市场上已有的以及正在研发中的新兴技术。

   2024 Impact Factor:2.6

   2025 CiteScore:5.4

   Time to First Decision:21 Days

   Acceptance to Publication:3.8 Days

  
来源:World Electric Vehicle Journal (WEVJ)

基于先验策略的集成深度强化学习在非结构化地形下无人履带车辆安全–效率平衡导航研究 MDPI WEVJ

参考标签

声明:本文转载仅出于学习和传播信息所需,并不意味着代表本站观点或证实其内容的真实性;其他网站或个人转载使用须保留本站所注“来源”,并自负相关法律责任;如作者不希望被转载或其他事宜,请及时联系我们!