CMU卡内基梅隆大学「软体机器人动态手旋转笔」

动态的手内操作仍然是软体机器人系统面临的一个挑战，尽管这些系统在安全合规交互中展现了优势，但在高速动态任务中仍然存在困难。在本研究中提出了SWIFT，一个使用软体且符合机器人手的动态任务学习系统。与依赖于仿真、准静态动作和精确物体模型的先前研究不同，所提系统通过试错学习旋转一支钢笔，仅使用现实世界的数据，而无需明确了解钢笔的物理属性。在从现实世界采样的自标记试验中，该系统发现了一个钢笔抓取和旋转的基本参数集合，使得软体手能够稳健且可靠地旋转钢笔。经过每个物体130次采样动作，SWIFT在三支重量和重量分布不同的钢笔上实现了100%的成功率，展示了系统的通用性和对物体属性变化的鲁棒性。结果突出了软体机器人末端执行器在执行动态任务时的潜力，包括快速的手内操作。我们还展示了SWIFT能够推广到旋转不同形状和重量的物品，例如刷子和螺丝刀，成功率分别为10/10和5/10。视频、数据和代码可在 https://soft-spin.github.io 获取。

图 1：SWIFT 解决了高速度动态手内部分非抓取操控问题，采用软机器人多指抓取器，机器人先抓住一支笔。然后，使用学习到的动作序列，快速地将笔绕着一个手指旋转并接住它。I. 引言手内灵活性对于我们日常生活中许多任务至关重要 [1]，而能够重新定向物体并重新抓取它们的能力，有助于高效和有效地执行这些任务 [2, 3]。软体机器人末端执行器的可变形手指使其能够抵抗扰动 [4, 5]，并与环境进行安全互动 [6, 7]。然而，这种可变形性使得快速而精准地移动手指变得困难。以前关于软体机器人末端执行器灵活性的研究主要集中在缓慢的准静态任务，如抓取和缓慢重新定向物体 [4, 8]。这些局限性凸显了软体机器人末端执行器与人类手之间的差距，人类能够充分利用物体的动力学来高效地重新定向和重新抓取各种工具和物体。旋转钢笔是一个具有挑战性的动态任务，很多人也难以掌握。作为如何使软体机器人执行快速动态任务的案例研究（如图1所示），它可以为处理软体操作器的快速操作任务提供方法。通过动态地处理手内物体重新定向的问题，机器人可以像其他动态操作任务一样，在一个连续的动作序列中高效地完成任务 [9, 10]。以前的研究利用物体的动力学来进行手内物体重新定向时，依赖于知道物体的属性，如重量和世界参数 [11]。然而，实际上，我们可能事先并不知道这些参数。例如，在旋转钢笔的情况下，视觉观察可能不足以估计重量的分布及其质心，从而找到成功旋转钢笔的适当动作参数。此外，旋转动作通常持续不到一秒钟，需要高速感知，而这种感知并非总是可用的，这使得闭环控制变得不切实际。我们提出的SWIFT（Soft-hand With In-hand Fast re-orienTation）系统，通过试错学习如何动态地操控物体，而不是依赖事先了解这些参数或闭环控制。SWIFT的一个关键组件是软体多指全向末端执行器（MOE）的柔软性和顺应性 [7]，这使得系统能够安全地与环境交互，可靠地抓取物体并尝试各种动态操作。物体重新定向任务（如钢笔旋转）具有接触丰富的特点，这导致了模拟环境与现实世界之间的显著差距，需要通过现实世界数据对模拟器进行大量的微调 [12]。此外，软体机器人末端执行器不仅在模拟接触交互时面临困难，还在模拟复杂的软体机械现象（如软材料的滞后性和蠕变）时遇到挑战 [13]。因此，我们仅通过现实世界的互动学习钢笔抓取和动态旋转技能。为此，我们通过RGB-Depth摄像头反馈定义了任务和期望行为，并实现了软体机器人钢笔旋转的基本操作，旨在将成功旋转钢笔的搜索空间维度减少到8个参数。我们使用软体且顺应的机器人手和一个6自由度的机器人臂，与环境安全交互，反复抓取并尝试旋转钢笔。我们部署了一个基于进化的优化系统来高效地探索基本操作的参数空间，并将其缩小到一个局部最优的参数集，以成功旋转钢笔。在实验中，我们展示了使用所提出的SWIFT系统，我们可以学习如何抓取和旋转钢笔，即使钢笔的属性（如重量或重量分布）不同。总结来说，本研究的贡献如下：1. 展示了在软体机器人手中抓取并动态旋转钢笔的动态任务，2. 开发了一种自监督的自主过程，快速学习使用软体顺应手动态旋转钢笔，3. 在多种条件下评估了我们的方法。II. 相关工作A. 动态操控研究人员提出了多种任务和方法来进行物体的动态操控，例如扔物体 [14--16]、快速运输抓取物体 [17] 和甩绳或布 [10, 18--21]。在大多数这些研究中，机器人手臂通过给物体提供冲击力来使物体动态移动 [17]。B. 机器人旋笔为了研究手内灵活性和动态操控，最近的工作提出研究旋笔任务 [11, 12, 22]。旋笔很有趣，因为它涉及到手内灵活性中的许多挑战性方面，如接触丰富的交互、部分非抓握式操控和物体动力学。研究人员通常采用两种方法之一来处理这个任务：基于分析动力学模型的控制 [11] 和通过仿真环境辅助的强化学习 [12]。[11] 使用了刚性机器人手，而刚性机器人手比本研究中使用的软体手更容易建模。基于强化学习的方法允许研究人员通过手工制作的奖励函数 [12] 或用语言模型生成的语义奖励函数 [23] 来定义任务。由于旋笔的复杂接触交互和物体动力学，学习方法在仿真中训练的策略的仿真到现实转移上存在困难，并且只演示了准静态的旋笔，动作较慢。C. 软体机器人操控研究人员已经展示了软体机器人执行器在各种准静态任务中的优势，例如物体抓取 [24] 和缓慢地重新定向常规物体（如立方体） [4]。最近的研究展示了如何利用软体机器人执行器的惯性动力学来高效地完成任务，例如扔物体 [25, 26]。与刚性动态操控中的研究类似，重点一直放在软体机器人手臂的高速控制上 [27]。据我们所知，本研究是首个探索使用软体机器人末端执行器进行动态手内任务（如旋笔）的方法。III. 问题陈述问题在于使软体机器人手能够执行高速度的手内旋转任务，具体而言，机器人手应执行一个类似于人类"Thumbaround"技巧的旋笔任务，在这个过程中，笔被中指推送，并绕拇指旋转，最后被食指接住。我们假设物体是长形且具有圆柱对称性，且其质量和大小在机器人手的抓取和操控能力范围内。虽然附加的操控臂将手放置在可重复抓取的位置，但它不参与高速操控。我们将成功定义为物体完成一次完整的旋转且不掉落。IV. 方法A. 软体手

图 2：多指全向末端执行器（MOE）。我们使用的软手是MOE的三指变体。每个手指有四根腱，由两个伺服电机驱动，每个电机分别控制手指在垂直方向上的运动。为了解决手内动态旋笔问题，我们构建了一个使用多指全向末端执行器（MOE）[28]的软体机器人手。软体机器人手由三个由肌腱驱动的软体机器人手指组成，每个手指由两个伺服电机控制四根肌腱。图2展示了MOE在未激活和激活时的状态。伺服电机拉动肌腱，使手指在垂直平面内弯曲，通过结合伺服电机的运动，可以驱动MOE手的每个指尖在其半球形工作空间中到达目标位置。MOE手的一侧安装了两个手指（标记为m1和m2），另一侧安装了最后一个手指（标记为m3）。我们将MOE手连接到一个6自由度的机器人臂。图2展示了我们的MOE和手指配置的更多细节。B. 设置和重置程序

图 3：任务进展随时间变化。每个旋转笔的轨迹分为三个主要阶段。我们将笔放置在固定在桌面上的蓝色槽位中，机器人移动到抓取位置，并将笔移至预设的旋转姿势（g 或预定义常数）。接着，MOE手指执行s参数尝试旋转笔，手指m1等待d秒后闭合以接住笔。最后，机器人臂移至初始关节配置，放下笔并重新开始循环。在每次尝试旋转钢笔之前，我们首先手动将钢笔放置在桌子上的固定槽中（图3 初始位置）。这种固定过程确保了可重复的抓取。然后，机器人臂执行一组固定的动作，将MOE手移动到钢笔的中心附近。MOE手指随后闭合抓住钢笔，机器人臂将钢笔带到预设的位置和姿态，之后执行下一个旋转动作（图3 抓取和预旋转姿态）。这个过程确保了系统的重复性重置。轨迹是通过放置在机器人臂前方的RGB-Depth相机捕捉的。当MOE手达到预旋转配置时，摄像头的Z轴大致指向m3手指。图4展示了设置过程。

图 4：我们的旋转笔实验设置。顶部：一个3指MOE软机器人手臂被安装在一个6自由度的机器人臂上，用于开发一个可以安全与笔互动并学习旋转笔的系统。RGB-D相机用于根据目标函数评估采样动作的表现。箱子在笔掉落时接住它，以简化系统重置以进行下一个实验。底部：实验中使用的每个物体的长度、半径、重量和近似质心位置。C. 旋笔动作参数化我们将旋笔任务表述为包含抓取动作、旋转动作和接笔动作的组合。我们没有优化系统中所有自由度，而是将旋笔动作参数化为一组简化的变量：• 伺服目标：这些是每个伺服电机内的PD控制器的目标角度，用于旋转钢笔。每个手指三个伺服电机，总共6个参数。我们将该部分表示为s ∈ R6。• 延迟时间：受到人类旋笔的启发，我们观察到只有手指m1需要向内弯曲以接住旋转的钢笔，而手指m2和m3可以保持不动。因此，我们不搜索接笔动作的伺服目标角度。m1上的伺服电机将执行与旋转动作相反的角度，也就是说，如果m1上的两个伺服电机在旋转时执行θ1、θ2，那么它们将在接笔时执行−θ1、−θ2。根据旋转动作的不同，钢笔的角速度会不同，导致m1手指需要伸展的时间不同。我们仍然包括一个可调节的参数d ∈ R，用于表示从旋转动作结束到接笔动作开始的延迟时间。• 抓取位置：我们添加了一个可调节的参数，用于控制旋转前的抓取位置。这个参数控制从抓取位置到钢笔中心的位移。我们将该参数表示为g ∈ R。机器人臂预先编程，将手指移动到钢笔中心，然后根据抓取位置参数水平调整末端执行器位置。MOE手指根据抓取位置的固定动作序列闭合，抓住钢笔。在评估中，我们将包含旋转动作伺服目标和延迟时间的动作参数化表示为（s，d）∈ R7。我们将包含以上三部分的动作参数化表示为（s，d，g）∈ R8。D. 状态估计和优化目标

图 5：SWIFT优化流程。每次迭代k有4个主要阶段：1）在抓取和重置阶段，机器人臂将MOE手移动到一个目标抓取位置，按照特定的抓取位置gk进行。2）然后，机器人臂将MOE手移动到预旋转配置，MOE手指执行参数化动作。3）RGB-D相机记录实验过程，并使用SAM-v2的掩码创建一个分割的点云。接着，对点云进行后处理，以获得笔的旋转和位移状态。4）最后，流程根据观察到的笔的状态评估目标函数，并使用优化算法CMA-ES更新动作参数。图5总结了完整的SWIFT管道。为了计算奖励，系统通过RGB图像和RGB-D相机在30fps下捕获的点云来观察钢笔的状态。在每条轨迹的第一帧，系统使用霍夫圆变换定位钢笔上的红色和绿色球形标记。Segment Anything v2 [29]随后使用球体中心的像素坐标作为初始关键点，在钢笔的每一帧上创建密集的分割掩码。分割掩码有助于选择属于钢笔的3D点。然后，在MOE手指尖周围添加一个边界框，以过滤分割点云中的离群点，并指示钢笔是否接近手指。如果过滤后的点云中包含的点数少于阈值，则认为钢笔已经掉落。为了获取钢笔的旋转状态，系统在过滤后的点云上应用PCA。钢笔的方向由第一主成分的方向表示。我们选择使用PCA而不是直接使用球形标记中心的深度信息，是为了增加对噪声RGB-D数据的鲁棒性。最终，系统将第一主成分向量投影到x、y和z平面上，以计算钢笔在相机坐标系中的欧拉角。目标函数包含奖励项和掉落惩罚项。系统在轨迹中的每一帧上计算该目标，轨迹共有帧。旋转奖励为：惩罚项，E. 自监督原始参数优化SWIFT 使用协方差矩阵适应进化策略 (CMA-ES) [30] 来优化动作参数。CMA-ES 是一种无梯度的进化策略，适用于优化如式 (1) 这样的非凸目标函数。在每一代中，CMA-ES 从多变量正态分布中抽样一组动作参数，参数化为一个均值和协方差矩阵，这些值通过当前代中表现最好的候选者进行更新。为了防止机器人臂移动到笔的抓取位置之外，并且避免MOE手执行超过其机械限制的动作，我们对优化算法的输出进行约束，确保其始终在变量允许的范围内。V. 评估A. 实验设置我们设置了一个环境（图4）用于可重复的笔抓取和相机观察。该设置还包括一个笼子，以方便人工重置。我们在三种笔配置上进行测试，以评估SWIFT对物体物理属性变化的鲁棒性。表 I：动作参数化成功率：我们使用 SWIFT 的 10 代优化了不同的动作参数化。结果表明，优化抓取位置和旋转参数能够获得最佳性能，并且在具有不同几何形状和质量分布的非笔物体上展示了泛化能力。

这三支笔的长度均为304毫米，半径为4.25毫米，外观相同。笔1是平衡笔，其重心位于笔的长度中心，总质量为38克。笔2的质量为26克，重心偏离中心。这是通过去除靠近红色球形标记的可拆卸重物来实现的。笔3被翻转，使重心偏向另一侧。螺丝刀的质量为38克，长度为216毫米。螺丝刀的最大半径为20.5毫米，最小半径为3.8毫米。刷子的质量为42克，长度为352毫米。刷子的最大厚度为21.3毫米，最小厚度为6.7毫米。我们在10代中优化动作参数，并在10次试验中评估动作参数的可重复性。根据Hansen和Ostermeier [30]的启发式方法，我们选择CMA-ES的种群大小为4+ 3 log2 8 ≈ 13，因为我们的动作参数化最多有8个维度。对于刷子和螺丝刀的评估，我们优化直到观察到种群中的第一次成功旋转，或最多优化10代。然后我们选择第一次人工观察到的成功进行评估，而不是直接使用CMA-ES存储的值。后来的观察显示，在刷子和螺丝刀上，第一次成功旋转开始采样的代数为4。B. 结果图 6：优化后的旋转可视化。上排：笔1，重心平衡。中排：笔2，重心不平衡。下排：笔3，重心不平衡。初始帧中的圆圈表示笔的重心位置。

图6展示了优化后的成功笔旋转。在优化过程中，我们使用的奖励函数仅间接地捕捉旋转动作是否成功。因此，人工观察者对试验结果进行了标记，成功的试验是指笔在手指m3上旋转，并且没有掉落。表I报告了每个基线方法和消融方法的成功率。我们用启发式手工制作的动作参数初始化CMA-ES优化。然而，直接应用固定的动作初始化在三种笔配置下都没有成功，三者的成功率均为0/10（表中第1行）。该结果表明，专门为MOE手优化动作对于任务成功是重要的。我们将SWIFT优化与所有动作参数化进行比较，并报告了表I中的结果。在初始化行中，SWIFT没有优化抓取动作g，总是抓住笔的中心。在没有抓取优化的情况下，我们只优化了(s, d)，但没有优化抓取点g。机器人再次总是抓住笔的中心。通过这个实验，我们看到仅优化(s, d)的效果在物体上高度依赖。对于笔2，通过中心抓取，我们只成功了7/10次。这可能是因为笔2的最佳抓取点最接近笔的中心，如图6所示。这些结果突显了优化抓取点和旋转动作参数对于系统在不同笔属性下良好运作的重要性。在"从笔1的最佳动作"行中，我们展示了为笔1优化动作参数的结果，然后将该动作应用于笔2和笔3。这表明，对于每个新物体，更新动作参数是必要的。直接使用从笔1到笔3的最佳(s, d, g)参数在笔3上取得了7/10的成功率，而在笔2上却为0/10。我们可以看到图6中，笔1和笔3的最佳抓取点都位于笔的中心左侧，这可能解释了为什么笔1的最佳动作在笔3上有所成功。在这些实验中，三支笔在外观上相同，因此依赖于SWIFT与物体的交互来搜索最佳的动作参数。在"完全优化（提出）"行中，我们发现为每个物体优化(s, d, g)参数会导致所有笔的成功率达到10/10。与不优化抓取相比，使用完全优化后，笔2的成功率更高，这也表明具有搜索抓取位置的能力使得搜索更加稳健的旋转动作成为可能。

图 7：对其他物体的泛化。我们将SWIFT应用于其他形状更不规则的物体，如刷子或螺丝刀。初始帧中的圆圈表示近似的重心位置。最后，我们将SWIFT应用于另外两个物体：刷子和螺丝刀。图7展示了这些泛化实验的结果。SWIFT分别达到了刷子和螺丝刀的10/10和5/10的成功率。螺丝刀由于其不规则的形状，特别具有挑战性。然而，SWIFT优化了动作参数并成功旋转，展示了SWIFT的多样性。VI. 结论在这项工作中，我们提出了SWIFT，一个用于软体机器人末端执行器的动态手中笔旋转的稳健系统。SWIFT利用真实世界的交互，通过反复试验学习，优化笔的抓取和旋转动作，适用于软体机器人末端执行器。重要的是，它不需要显式的物体物理属性知识，这使得系统能够在笔的重量分布和形状变化时仍然稳健地旋转笔。通过使用基于采样的优化策略，我们能够高效地探索动作空间，并发现最佳的笔旋转动作集。我们展示了系统在不同重量和重量分布的笔上的稳健性，表明该系统能够推广并适应物体惯性属性的变化，而这些变化在没有交互的情况下不易观察到。此外，我们还在两种其他物体上测试了SWIFT，即刷子和螺丝刀，发现SWIFT仍然能够成功地优化动作参数以旋转它们。结果突出了软体机器人末端执行器在接触丰富和动态条件下执行动态操作任务的有效性。未来，我们将专注于将该方法扩展和推广到超出笔形物体的其他物体，并探索其他使用软体机器人末端执行器的手中动态任务。我们还希望通过引入更广泛的感知反馈，例如本体感觉和接触估计，以提高系统的效率和可靠性，从而增强系统的性能和通用性。