【强化学习抓取】偏机器人领域(略)

文章目录

  • [1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch](#1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch)

1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch

摘要和结论

引言

  • 尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。
  • 深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。一些最近的方法提出了利用离线任务演示数据来解决这个问题,并将这些数据与在线策略训练期间获取的数据结合起来。尽管这些方法显示出了有希望的结果,但演示数据的收集是一个非平凡的过程,需要适当的工具,如动作捕捉(MoCap)或虚拟现实(VR)系统。
  • 为了克服这些限制,作者们提出了一种基于DRL的抓取方法,该方法利用自动收集的演示来初始化策略训练。据作者所知,这是第一个从RGB数据、触觉和本体感知信息中学习这项任务的方法。他们从一个由外部算法生成的抓取姿势开始,将其作为任务的先验信息,并假设这个初始姿势是不准确的,需要根据特定的物体和抓取手进行细化。
  • 因此,机器人首先将末端执行器移动到接近这个姿势的位置以开始抓取动作,然后使用一个单独的策略来接近和抓取物体。他们通过提出的G-PAYN方法训练这个策略。该方法首先利用给定的抓取规划器自动获取一组演示,然后从这些演示的数据开始训练策略。他们为训练过程设计了一个奖励函数,使用抓取成功或失败的度量,同时考虑抓取动作的中间步骤。例如,他们使用来自触觉传感器的信息,并为那些增加接触点数量以实现更稳定抓取的手部配置提供正向奖励。

相关工作

A. 多指抓取(Multi-fingered Grasping):

  • 多指抓取任务由于涉及的自由度(DoFs)数量众多以及手部与物体之间复杂的交互而具有挑战性。
  • 一些最近的研究提出了从点云信息开始的多指抓取合成方法,但这些方法通常受限于训练时使用的硬件,并且没有考虑抓取执行过程中的手部与物体的交互。
  • 另一些方法,如使用基于主成分分析(PCA)的手部协同方法,处理Shadow手的高自由度问题,并训练DRL策略从外部算法给出的抓取姿势开始抓取物体。这些方法使用二进制触觉信息关节扭矩(可能不是所有机器人都可用)和手部关节位置作为输入,但没有考虑物体的信息(例如物体位置或视觉反馈),这些信息可以允许在抓取姿势不适当时进行抓取恢复。
  • 其他方法,如使用动作捕捉系统收集数据,旨在减少多指抓取训练数据的数量,因为多指抓取的数据收集过程具有挑战性。

B. 深度强化学习从演示中学习(Deep Reinforcement Learning from Demonstrations):

  • 利用演示数据学习DRL策略的方法可以分为两类:一类是在训练过程中始终使用演示数据的方法,如DDPGfD和基于DDPG算法的修改版本;另一类是使用演示数据进行策略的预训练,然后在线数据上进行微调的方法,如DAPG和AWAC。
  • 第一类方法通过修改DDPG算法来利用包含在重放缓冲区中的演示数据。
  • 第二类方法使用演示数据进行预训练 ,然后通过在线获取的数据进行策略的微调。例如,DAPG通过行为克隆进行预训练,然后使用增强损失进行微调,以保持策略接近演示数据 。AWAC方法则缓解了离线演示数据和在线训练期间获取的数据之间的分布偏移

模型框架

相关推荐
子燕若水几秒前
用gpt-4o 生成图的教程和常用提示词
人工智能
weixin_442424034 分钟前
Opencv计算机视觉编程攻略-第七节 提取直线、轮廓和区域
人工智能·opencv·计算机视觉
x-cmd6 分钟前
[250401] OpenAI 向免费用户开放 GPT-4o 图像生成功能 | Neovim 0.11 新特性解读
人工智能·gpt·文生图·openai·命令行·neovim
HABuo15 分钟前
【YOLOv8】YOLOv8改进系列(12)----替换主干网络之StarNet
人工智能·深度学习·yolo·目标检测·计算机视觉
Bruce_Liuxiaowei19 分钟前
智能语音识别工具开发手记
人工智能·python·语音识别
王亭_66621 分钟前
Ollama+open-webui搭建私有本地大模型详细教程
人工智能·大模型·ollama·openwebui·deepseek
集和诚JHCTECH25 分钟前
集和诚携手Intel重磅发布BRAV-7820边缘计算新品,为车路云一体化场景提供强大算力支撑
人工智能·嵌入式硬件·边缘计算
itwangyang52027 分钟前
人工智能在生物医药领域的应用地图:AIBC2025将于6月在上海召开!
人工智能·百度
PingCAP41 分钟前
TiDB 亮相宜昌“医院‘云数智’技术实践研讨及成果展示交流会”,探讨国产化 + AI 背景下的数据库新趋势
数据库·人工智能·tidb
文弱_书生41 分钟前
再谈图像处理中的傅里叶变换
图像处理·人工智能·傅里叶变换