【强化学习抓取】偏机器人领域(略)

文章目录

  • [1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch](#1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch)

1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch

摘要和结论

引言

  • 尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。
  • 深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。一些最近的方法提出了利用离线任务演示数据来解决这个问题,并将这些数据与在线策略训练期间获取的数据结合起来。尽管这些方法显示出了有希望的结果,但演示数据的收集是一个非平凡的过程,需要适当的工具,如动作捕捉(MoCap)或虚拟现实(VR)系统。
  • 为了克服这些限制,作者们提出了一种基于DRL的抓取方法,该方法利用自动收集的演示来初始化策略训练。据作者所知,这是第一个从RGB数据、触觉和本体感知信息中学习这项任务的方法。他们从一个由外部算法生成的抓取姿势开始,将其作为任务的先验信息,并假设这个初始姿势是不准确的,需要根据特定的物体和抓取手进行细化。
  • 因此,机器人首先将末端执行器移动到接近这个姿势的位置以开始抓取动作,然后使用一个单独的策略来接近和抓取物体。他们通过提出的G-PAYN方法训练这个策略。该方法首先利用给定的抓取规划器自动获取一组演示,然后从这些演示的数据开始训练策略。他们为训练过程设计了一个奖励函数,使用抓取成功或失败的度量,同时考虑抓取动作的中间步骤。例如,他们使用来自触觉传感器的信息,并为那些增加接触点数量以实现更稳定抓取的手部配置提供正向奖励。

相关工作

A. 多指抓取(Multi-fingered Grasping):

  • 多指抓取任务由于涉及的自由度(DoFs)数量众多以及手部与物体之间复杂的交互而具有挑战性。
  • 一些最近的研究提出了从点云信息开始的多指抓取合成方法,但这些方法通常受限于训练时使用的硬件,并且没有考虑抓取执行过程中的手部与物体的交互。
  • 另一些方法,如使用基于主成分分析(PCA)的手部协同方法,处理Shadow手的高自由度问题,并训练DRL策略从外部算法给出的抓取姿势开始抓取物体。这些方法使用二进制触觉信息关节扭矩(可能不是所有机器人都可用)和手部关节位置作为输入,但没有考虑物体的信息(例如物体位置或视觉反馈),这些信息可以允许在抓取姿势不适当时进行抓取恢复。
  • 其他方法,如使用动作捕捉系统收集数据,旨在减少多指抓取训练数据的数量,因为多指抓取的数据收集过程具有挑战性。

B. 深度强化学习从演示中学习(Deep Reinforcement Learning from Demonstrations):

  • 利用演示数据学习DRL策略的方法可以分为两类:一类是在训练过程中始终使用演示数据的方法,如DDPGfD和基于DDPG算法的修改版本;另一类是使用演示数据进行策略的预训练,然后在线数据上进行微调的方法,如DAPG和AWAC。
  • 第一类方法通过修改DDPG算法来利用包含在重放缓冲区中的演示数据。
  • 第二类方法使用演示数据进行预训练 ,然后通过在线获取的数据进行策略的微调。例如,DAPG通过行为克隆进行预训练,然后使用增强损失进行微调,以保持策略接近演示数据 。AWAC方法则缓解了离线演示数据和在线训练期间获取的数据之间的分布偏移

模型框架

相关推荐
格林威1 分钟前
Baumer相机金属弹簧圈数自动计数:用于来料快速检验的 6 个核心算法,附 OpenCV+Halcon 实战代码!
人工智能·数码相机·opencv·算法·计算机视觉·视觉检测·堡盟相机
万行10 分钟前
SQL进阶&索引篇
开发语言·数据库·人工智能·sql
名字不好奇11 分钟前
一文拆解MCP协议
人工智能·mcp
乾元16 分钟前
拒绝服务的进化:AI 调度下的分布式协同攻击策略
人工智能·分布式
困死,根本不会17 分钟前
OpenCV摄像头实时处理:从单特征到联合识别(形状识别 + 颜色识别 + 形状颜色联合识别)
人工智能·opencv·计算机视觉
工具人呵呵17 分钟前
[嵌入式AI从0开始到入土]22_基于昇腾310P RC模式的ACT模型部署实践
人工智能
yj_sharing19 分钟前
PyTorch深度学习实战:从模型构建到训练技巧
人工智能·pytorch·深度学习
安全二次方security²19 分钟前
CUDA C++编程指南(7.31&32&33&34)——C++语言扩展之性能分析计数器函数和断言、陷阱、断点函数
c++·人工智能·nvidia·cuda·断点·断言·性能分析计数器函数
bksheng21 分钟前
【Dify】安装与部署
人工智能
狸奴算君22 分钟前
告别数据泄露:三步构建企业级AI的隐私保护盾
人工智能