集成视触觉传感器的机器人操作学习

强化学习是一种仿人学习的方法,其在不断与环境交互试错的过程中进行学习,提高自身的认知。其具有如下的优点,首先是数据依赖性低,强化学习通过与环境的交互来学习,减少了对标记数据的依赖性,可以大量的减少成本。其次是探索性强,强化学习通过与环境的交互来进行学习,可以更好地探索新的策略。最后是可解释性好,强化学习方法所使用的价值函数、策略等都具有明确的表示形式,能够为动作决策过程提供一定的解释能力。因此,强化学习(RL)是执行复杂任务的有效方法,智能体在与环境交互中利用观察值(Observation)来执行适当的动作以提高奖励(Reward)值,从而完成任务。这种方法适用于复杂任务和未知环境。目前已经提出了多种强化学习策略,如SARSA、Q-learning、DQN、TD3、PPO和DPO。

虽然基于强化学习的方法已经在机器人操作领域取得了不少成果,但仍然存在着不少的问题。由于机械手缺少末端传感器,其所能获取的信息很少,甚至只作为一个末端执行器。这使得很多时候要去根据先验知识进行来使用基于模型的强化学习,这会大大降低训练出来的强化学习模型的鲁棒性和一般性。

如果能够在机械手末端加装传感器来获取更加丰富信息,这些信息可以丰富强化学习的信息量,并作为观察值(Observation)来对齐虚拟和现实,完成强化学习的迁移,提高整体模型的鲁棒性和一般性。视触觉传感器作为一款连续型柔性传感器,与柔性操作有着天然的适配性。将视触觉传感器作为执行器的末端传感器,则可以在操作物体的同时,获取物体的信息。有研究使用生成对抗网络(GAN)基于真实触觉图形来生成伪触觉图像,并以此作为强化学习的观察值。最终使用Tactip完成了表面跟踪操作任务虚拟到现实的迁移。但由于GAN网络所使用数据的专一性,该方法并不具有鲁棒性。还有研究者设计一种新的肌腱连接多功能光学触觉传感器MechTac。该传感器可以用于视野中物体的感知(TacTip)和视觉盲区中触摸点位置的确定(TacSide)。该论文中所提到的二值化卷积层大大提高了图片的预测效率。

图1 视触觉传感器作为末端执行器进行捋线操作

上述研究表明视触觉传感器可以很好地获取物体表面信息,这有助于强化学习虚拟向现实迁移时信息对齐,但这也带来了不小的挑战。上文介绍了强化学习是一种仿人学习的方法,其通过与环境交互试错来不断学习,但这就存在试错成本。如果在现实中直接进行强化学习训练,则会造成如数据采集效率低、设备磨损和安全事故。因此,为了降低强化学习的训练成本,提高安全性和稳定性。强化学习通常在虚拟环境中进行数据的采集和训练。如果想在机械手上加入末端传感器,尤其是柔性传感器,并使用强化学习作为训练策略,则会遇到很多困难,例如在虚拟中如何仿真柔性传感器的变形并获取准确的物体信息。这大大提高了仿真的难度,从而限制了其在强化学习的应用。

为了解决这些问题,人们开始关注到视触觉传感器的仿真方法,如有限元法(FEM)、关键点法和移动最小二乘物质点法(MLS-MPM)等。为了预测视触觉传感器弹性体的变形状态,有研究者使用 MLS-MPM 作为变形预测方法并开发了仿真环境,但它只考虑了弹性的弹性变形,未考虑被操作物体的弹塑性。因此,它仅适用于视触觉传感器与刚性物体之间的相互作用。另有研究者使用有限元(FEM)的方法来对视触觉传感器进行了仿真,通过视触觉传感器的标记点来对齐虚拟和现实的信息,完成了插拔刚体,钥匙开锁等刚性操作。然而对于可变形物体而言,其拥有着更加复杂的变形特性,如弹性、塑性和弹塑性变形。这会继续加大仿真的难度,是一个巨大的挑战。

图2 使用从虚拟到现实的强化学习训练策略进行机器人抓取操作

图3 利用有限元法(FEM)对视触觉传感器进行仿真并最终迁移到现实

随着计算机图形学技术的发展,越来越多基于物理的方法开始应用到仿真环境的设计中。为了模拟弹塑性体,有研究使用粒子群来表示弹塑性体(即橡皮泥),通过粒子之间信息的交互来表征物体因相互作用而发生的变形,并最终描述其变形特征。

图4 针对可变形物体的仿真结果

由于弹塑性体的复杂特性,可能发生弹性、塑性和弹塑性变形。因此视触觉传感器与弹塑性体之间的相互作用更为复杂,这就需要更为先进的仿真方法及可靠的物理引擎。

相关推荐
使者大牙7 分钟前
【大语言模型学习笔记】第一篇:LLM大规模语言模型介绍
笔记·学习·语言模型
As977_29 分钟前
前端学习Day12 CSS盒子的定位(相对定位篇“附练习”)
前端·css·学习
ajsbxi32 分钟前
苍穹外卖学习记录
java·笔记·后端·学习·nginx·spring·servlet
Rattenking33 分钟前
React 源码学习01 ---- React.Children.map 的实现与应用
javascript·学习·react.js
dsywws1 小时前
Linux学习笔记之时间日期和查找和解压缩指令
linux·笔记·学习
道法自然04021 小时前
Ethernet 系列(8)-- 基础学习::ARP
网络·学习·智能路由器
爱吃生蚝的于勒1 小时前
深入学习指针(5)!!!!!!!!!!!!!!!
c语言·开发语言·数据结构·学习·计算机网络·算法
cuisidong19973 小时前
5G学习笔记三之物理层、数据链路层、RRC层协议
笔记·学习·5g
南宫理的日知录3 小时前
99、Python并发编程:多线程的问题、临界资源以及同步机制
开发语言·python·学习·编程学习
云卓SKYDROID3 小时前
除草机器人算法以及技术详解!
算法·机器人·科普·高科技·云卓科技·算法技术