【强化学习抓取】偏机器人领域(略)

文章目录

  • [1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch](#1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch)

1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch

摘要和结论

引言

  • 尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。
  • 深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。一些最近的方法提出了利用离线任务演示数据来解决这个问题,并将这些数据与在线策略训练期间获取的数据结合起来。尽管这些方法显示出了有希望的结果,但演示数据的收集是一个非平凡的过程,需要适当的工具,如动作捕捉(MoCap)或虚拟现实(VR)系统。
  • 为了克服这些限制,作者们提出了一种基于DRL的抓取方法,该方法利用自动收集的演示来初始化策略训练。据作者所知,这是第一个从RGB数据、触觉和本体感知信息中学习这项任务的方法。他们从一个由外部算法生成的抓取姿势开始,将其作为任务的先验信息,并假设这个初始姿势是不准确的,需要根据特定的物体和抓取手进行细化。
  • 因此,机器人首先将末端执行器移动到接近这个姿势的位置以开始抓取动作,然后使用一个单独的策略来接近和抓取物体。他们通过提出的G-PAYN方法训练这个策略。该方法首先利用给定的抓取规划器自动获取一组演示,然后从这些演示的数据开始训练策略。他们为训练过程设计了一个奖励函数,使用抓取成功或失败的度量,同时考虑抓取动作的中间步骤。例如,他们使用来自触觉传感器的信息,并为那些增加接触点数量以实现更稳定抓取的手部配置提供正向奖励。

相关工作

A. 多指抓取(Multi-fingered Grasping):

  • 多指抓取任务由于涉及的自由度(DoFs)数量众多以及手部与物体之间复杂的交互而具有挑战性。
  • 一些最近的研究提出了从点云信息开始的多指抓取合成方法,但这些方法通常受限于训练时使用的硬件,并且没有考虑抓取执行过程中的手部与物体的交互。
  • 另一些方法,如使用基于主成分分析(PCA)的手部协同方法,处理Shadow手的高自由度问题,并训练DRL策略从外部算法给出的抓取姿势开始抓取物体。这些方法使用二进制触觉信息关节扭矩(可能不是所有机器人都可用)和手部关节位置作为输入,但没有考虑物体的信息(例如物体位置或视觉反馈),这些信息可以允许在抓取姿势不适当时进行抓取恢复。
  • 其他方法,如使用动作捕捉系统收集数据,旨在减少多指抓取训练数据的数量,因为多指抓取的数据收集过程具有挑战性。

B. 深度强化学习从演示中学习(Deep Reinforcement Learning from Demonstrations):

  • 利用演示数据学习DRL策略的方法可以分为两类:一类是在训练过程中始终使用演示数据的方法,如DDPGfD和基于DDPG算法的修改版本;另一类是使用演示数据进行策略的预训练,然后在线数据上进行微调的方法,如DAPG和AWAC。
  • 第一类方法通过修改DDPG算法来利用包含在重放缓冲区中的演示数据。
  • 第二类方法使用演示数据进行预训练 ,然后通过在线获取的数据进行策略的微调。例如,DAPG通过行为克隆进行预训练,然后使用增强损失进行微调,以保持策略接近演示数据 。AWAC方法则缓解了离线演示数据和在线训练期间获取的数据之间的分布偏移

模型框架

相关推荐
嵌入式小企鹅36 分钟前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
草莓熊Lotso38 分钟前
Vibe Coding 时代:LangChain 与 LangGraph 全链路解析
linux·运维·服务器·数据库·人工智能·mysql·langchain
快乐非自愿2 小时前
RAG夺命10连问,你能抗住第几问?
人工智能·面试·程序员
千匠网络4 小时前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
kobesdu6 小时前
【ROS2实战笔记-12】rosshow:终端里的盲文可视化与无头机器人的现场调试
笔记·机器人·ros·移动机器人
马丁聊GEO6 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker6 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.6 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑6 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金6 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent