不可抓取的多物体重排任务 (NPMO) 是机器人领域的重要问题,其目标是使机器人规划可行路径并将多个物体转移到其预定义的目标姿势而不采用抓取。在这个任务中,机器人必须考虑每个物体如何达到目标以及移动物体的顺序,从而大大增加了问题的复杂性。为了解决这个长序的决策问题,本文采用模仿学习和强化学习来训练分层策略中的 rollout 策略:在高级策略中,策略网络指导蒙特卡洛树搜索算法有效地寻找多个物体的理想重排序列;在低级策略中,机器人根据路径原语的顺序规划路径,并操纵物体接近目标位姿。实验表明,与现有的方法相比,本文所提出的方法成功率更高,步骤更少,路径更短。
(一) 本文提出的重排策略为分层策略。在高级策略中,机器人关注的是遵循什么样的排列顺序。本文提出了一个通过模仿学习和强化学习训练的策略价值网络作为 rollout 策略,它指导蒙特卡洛树算法有效地寻找多个物体的理想重排序列。在低级策略中,构建五个路径原语 (一个原语代表一条路径,即一系列单步运动),而不是五个单步运动,并指导机器人执行动作。这种方法可减少搜索树的宽度和深度,提高搜索效率,并专注于遵循的顺序。策略的流程如图4所示。
图4 分层策略的训练和推理过程
在训练中,使用模仿学习和强化学习在模拟环境中训练策略价值网。在推理中,使用经过训练的策略网络指导蒙特卡洛树搜索进行高级策略的预测。在真实环境中,先离散化环境状态,然后执行高级策略预测和完成低级策略路径。
(二) 本文设计了适合长序决策问题的价值策略网络,具体结构如图5所示。本文使用卷积神经网络开发具有局部共享参数的策略价值网络来预测策略和价值。输入是使用不同通道编码的物体的初始状态和目标状态。主干是与长短期记忆模块 (LSTM) 相结合的残差结构,用于嵌入历史信息并防止过拟合。考虑到 NPMO 重排问题的复杂性,本文将每个对象的完成标志和之前的动作作为特征添加到中间层。最后,多层感知器对 LSTM 输入进行编码,以提供动作的概率分布向量和预测值。
图5 价值策略网络的结构图
(三) 本文进行了实物环境下的实验,并对比了不同策略的表现,对比结果如表2所示,实物实验过程如图6所示。
表2 不同方法的性能比较 (⬆和⬇分别代表越高越好,越低越好;SR代表成功率 )
从表2中可以看到,本文方法的平均奖励和成功率分别达到54.50和80.0%,在各个方面都超过了基线。随着测试对象数量的增加和任务的困难程度增加,奖励和准确率变低,移动步数增加。但在任何条件下,本方法始终能够提供最佳性能,并且更适合复杂的任务。通过广泛的比较实验证明了本方法在 NPMO 重排中具有较高的效率。
图6 真实机器人实验中算法执行的定性结果。根据初始状态和目标状态,机器人按照 (a)-(j) 的顺序完成 NPMO 重排任务。
图6为实物设置和实验过程。在UR3机器人的手腕上安装 Realsense SR300 深度摄像头,用以接收 RGB 和深度信息。在对相机和机器人校准标定后,进行精确的控制和规划。对于图6中的初始状态,给定目标状态后,机器人按 (a)-(j) 的运动顺序准确快速地完成了物体的重排任务。
本文为 NPMO 问题提出了一个基于强化学习的分层策略重排方案。将蒙特卡洛树搜索和 rollout 策略一起使用,低级策略解决了如何走的问题,高级策略解决了遵循什么顺序的问题,从而提高了搜索性能。该方法的卓越性能已通过广泛的比较实验得到证明,其成功率更高、步骤更少、路径更短,在服务机器人、仓储物流、工程流水线等场景具有一定的现实意义。
【作者信息】
Fan Bai
1
, Fei Meng
1
, Jianbang Liu
1
, Jiankun Wang
2
, Max Q.-H. Meng
1,2,3,*
1 Department of Electronic Engineering, The Chinese University of Hong Kong, Shatin N.T., Hong Kong SAR, China (e-mail: fanbai@link.cuhk.edu.hk; feimeng@link.cuhk.edu.hk; henryliu@link.cuhk.edu.hk; mengqh@sustech.edu.cn )
2 Department of Electronic and Electrical Engineering, Southern University of Science and Technology, Shenzhen, China (e-mail: wangjk@sustech.edu.cn)
3 Shenzhen Research Institute of the Chinese University of Hong Kong, Shenzhen, China
* Corresponding author
【DOI】
https://doi.org/10.1016/j.birob.2022.100047
【全文链接】
Biomimetic Intelligence and Robotics (BIROB, ISSN 2667-3797, CN 37-1527/TP)聚焦仿生智能与机器人领域,主要发表高质量原创理论和应用研究成果,涉及领域包括但不限于:仿生设计、仿生材料、仿生驱动与感知、工业机器人、服务机器人、特种机器人、医疗机器人、微型和纳米机器人、软体机器人、外骨骼系统、机器学习、人机交互、运动学和动力学、运动规划与控制、自主系统、多机器人系统等。期刊接收包括原创研究论文、综述、短篇通讯等多种类型的文章,目前对作者和读者均免费,平均审稿周期30天,诚邀广大学者将高质量的创新成果投稿至本刊。期刊将为仿生智能和机器人领域最具创新性的新发现和最具影响力的应用提供国际交流平台,以促进机器人学、仿生学和人工智能领域的进步和原创贡献。
期刊官网:
https://www.journals.elsevier.com/biomimetic-intelligence-and-robotics
投稿网址:
https://www.editorialmanager.com/birob/default1.aspx