基于强化学习的自动泊车运动规划

发布时间：2022-01-05 21:12

　　自动泊车运动规划需满足安全性、舒适性、最终泊车位姿等多目标最优。提出一种基于模型的强化学习运动规划方法,以最大限度摆脱人类泊车经验,并综合考虑上述需求。建立了用于逼近实车的仿真模型;构建了基于加速度和距离控制的纵向策略;基于蒙特卡洛树搜索和神经网络,结合构建的纵向策略强化学习,最终收敛得到最优的泊车策略,迭代过程中的奖励函数综合考虑安全性、舒适性及最终泊车位姿等因素;通过实车实验对获得的泊车策略进行了验证。结果表明,规划策略能够满足对安全性、舒适性、最终泊车位姿等多目标最优的需求。

【文章来源】：同济大学学报(自然科学版). 2019,47(S1)北大核心EICSCD

【文章页数】：5 页

【部分图文】：

基于强化学习的自动泊车运动规划

平行泊车库位模型

架构图,架构,策略,数据

泊车策略强化学习系统架构图见图2。每次数据迭代分3个阶段：(1)产生数据阶段，基于MCTS(Monte Carlo tree search）和训练得到的神经网络，结合车速策略控制车辆模型，针对不同工况（不同库位及起始位姿）仿真，产生泊车数据。神经网络为MCTS提供不同转角的概率分布，引导搜索过程。模拟过程中，MCTS兼顾神经网络的引导与一定的随机探索。(2)评价数据阶段，利用构建的奖励函数评价泊车数据质量。奖励函数综合考虑安全性、舒适性以及最终泊车位姿等因素，最终，筛选出各仿真工况下泊车质量最佳的数据。(3)更新网络阶段，利用筛选的质量最优的数据更新网络参数。该更新的网络又用到下一次迭代产生数据中，从而为MCTS提供更强的搜索引导。这样使得产生的泊车数据质量不断提升，学习到的泊车策略不断增强，最终收敛到最优，从而达到自主学习的目的。

示意图,区域,示意图,后角

安全是对泊车系统最基本的要求。因此，安全性在奖励函数中应该被赋予足够的权重。图4为平行泊车场景示意图，入库过程中，组成库位边界的前车左侧和后侧以及两条边的交点（即左后角点）为容易发生碰撞的区域。设置安全距离dsafe，即图4中曲线所包围的区域为碰撞区域。若车辆进入该区域，即赋予很大的惩罚值；否则，该项值为0。3.1.2 入库最终位姿指标

【参考文献】：
期刊论文
[1]自主泊车系统研究综述[J]. 石天聪,刘雪,余政涛. 汽车实用技术. 2021(09)
[2]基于改进深度强化学习的自动泊车路径规划[J]. 陈鑫,兰凤崇,陈吉清. 重庆理工大学学报(自然科学). 2021(07)

博士论文
[1]自主泊车的最优轨迹规划与跟踪控制研究[D]. 吴冰.合肥工业大学 2021

硕士论文
[1]基于多信息融合的自动泊车控制系统研究[D]. 曾虹钧.西安科技大学 2020

本文编号：3571084

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3571084.html

上一篇：需求可离散拆分车辆路径问题及其禁忌搜索算法
下一篇：大数据时代网络搜索行为与公共关注度:基于2011-2017年百度指数的动态分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|