基于深度强化学习的机械臂抓取操作决策研究

发布时间：2024-03-19 21:35

　　机械臂在工业生产中有着广泛应用。绝大部分抓取算法都依赖于手眼标定结果,物体模型特征等先验知识,且只能针对特定种类物体的抓取,当任务场景,操作目标发生变化时,其无法进行有效的迁移。本文主要研究在机械臂仿真环境下的通用物体抓取决策过程。本文定义的通用物体抓取过程主要满足以下四点约束:·可在指定任务场景下完成对单个任意的通用物体的抓取,包含新物体的抓取。·抓取决策过程的输入信息仅包含传感器观测输入(如相机的图像),机械臂的姿态,夹持器的反馈信息等。·不使用目标物体真实坐标等实物平台上难以直接获得的额外信息,强化学习训练过程采用稀疏奖励的反馈,只有抓取成功时才能获得正面的反馈。·采用笛卡尔坐标系下机械臂末端的连续动作空间作为决策的输出。本文主要使用深度强化学习的方法来研究通用物体抓取的端对端决策过程。在上述约束下,强化学习的方法主要会遇到交互时间长,采样效率低,样本利用率不足,探索性受限四个问题。本文的研究主要针对这四个问题展开,具体研究成果如下:1.本文在基础的DQN和DDPG两类算法上分别引入控制器引导策略探索与分布式训练两点改进,以克服交互时间长、采样效率低的问题。由于高维状态、稀疏奖励...

【文章页数】：84 页

【学位级别】：硕士

【部分图文】：

图１．４各类型候选抓取姿态

浙江大学硕士学位论文?１绪论??图１．３分割网络用于抓取位姿估计流程图示例??络回归出最优的抓取位姿，或者用基于采样的方法选出候选抓取位姿，利用ＣＮＮ网络评??估出最优的抓取姿态。这类方法解决的问题是在一个或者一堆物体中成功地完成抓取这??个动作，换言之，在每次的抓取操作中，机械....

图１．３分割网络用于抓取位姿估计流程图示例??

浙江大学硕士学位论文?１绪论??图１．３分割网络用于抓取位姿估计流程图示例??络回归出最优的抓取位姿，或者用基于采样的方法选出候选抓取位姿，利用ＣＮＮ网络评??估出最优的抓取姿态。这类方法解决的问题是在一个或者一堆物体中成功地完成抓取这??个动作，换言之，在每次的抓取操作中，机械....

图１．６卷积神经网络通过对特定物体示教数据的学习后，可回归机械臂末端执行的动作??

１绪论?浙江大学硕士学位论文??物中采集大规模抓取数据集的代价是非常昂贵的，Ｊｅｆｆｒｅｙ在仿真环境中生成了?６７０ｗ组点??云图来训练网络估计候选抓取位姿的鲁棒性［１８］。表１．１对比了已有的一些大规模机械臂的??抓取数据集。??表１．１几种自动采集的机械臂抓取数据集数据规模对....

图１．５左图为谷歌机械臂抓取数据采集“农场”，右图为采集的物体集合??

１绪论?浙江大学硕士学位论文??物中采集大规模抓取数据集的代价是非常昂贵的，Ｊｅｆｆｒｅｙ在仿真环境中生成了?６７０ｗ组点??云图来训练网络估计候选抓取位姿的鲁棒性［１８］。表１．１对比了已有的一些大规模机械臂的??抓取数据集。??表１．１几种自动采集的机械臂抓取数据集数据规模对....

本文编号：3932615

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/lindaojc/3932615.html

上一篇：花生种植户生产决策行为对价格的反应研究——基于动态蛛网和非对称性视角
下一篇：密集部署下WLAN信道分配策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|