大模型时代的具身智能系列专题(十二)

Robert Platt(波士顿动力)

Robert Platt是美国东北大学Helping Hands机器人实验室主任、计算机科学教授。在加入东北大学之前，Platt 曾是麻省理工学院的研究科学家和美国宇航局的机器人工程师。platt博士毕业于马萨诸塞大学阿默斯特分校计算机科学专业。Platt 的工作主要集中在机器人操控的感知、规划和控制上。他对机器人感知与规划/控制之间的交集特别感兴趣，目标是让机器人能够在现实世界感知不确定的情况下稳健地执行操控任务。这一研究领域对于执行机器人装配或维修任务，或在日常环境中简单地抓取和举起物体至关重要。Platt 预计稳健的机器人操控将在家庭、医疗保健、工厂或仓库、危险环境和军事领域拥有广泛的应用。

主题相关作品

ThinkGrasp

ThinkGrasp

在严重杂乱的环境中，机器人抓取面临着由于遮挡和多个物体的存在而带来的重大挑战。主要问题在于：为自然语言指令指定的目标物体设计合适的抓取姿态。

一个显著的挑战是遮挡，即物体常常被其他物品部分或完全遮挡，这使得机器人难以识别和抓取目标物体。另一个问题是自然语言指令的模糊性。这些指令可能含糊不清，需要机器人准确解读用户的意图，并在众多可能性中识别出正确的物体。此外，环境的动态性意味着抓取策略必须随着物体位置和方向的变化实时调整。确保安全性和稳定性至关重要，因为抓取姿态不仅要可行，而且要稳固，以避免损坏物体或机器人。效率也至关重要，因为减少实现成功抓取所需步骤的数量可以使过程更快、更有效。

为了克服这些挑战，我们需要一个系统，该系统能够准确理解环境、解释自然语言命令、即使目标物体部分遮挡也能定位、根据当前环境调整其抓取方式、确保安全稳定的抓取，并高效运行以用最少的努力完成任务。

提出的方法通过一个迭代流程（图1）解决了杂乱环境中抓取的战略部分。给定一个初始的RGB-D场景观测O0（模拟中为224×224，真实机器人为640×480）和一个自然语言指令g。

首先，系统利用GPT-4o执行我们称之为"想象分割"的过程。在这个过程中，GPT-4o将视觉场景和自然语言指令g作为输入。GPT-4o将生成视觉理解和分割假设，识别出与给定指令最匹配的潜在目标物体或部分。对于每个识别的物体，GPT-4o通过想象最优分割并在3×3网格内提出具体的抓取点，来建议最合适的抓取位置。

GPT-4o利用目标语言条件来识别当前场景中的潜在物体。然后，它确定哪个物体在移动后最有可能揭示目标物体，或者如果目标物体已经可见，则直接选择目标物体作为目标。它根据视觉输入和语言指令来想象分割后的物体，利用3×3网格方法，专注于对抓取来说最安全、最有利的物体部分。3×3网格策略将包含提议的目标物体或部分的裁剪框划分为3×3网格，并建议一个1到9之间的数字，指示最优抓取区域（1代表左上角，9代表右下角）。这种策略特别适用于低分辨率图像，它侧重于选择最优区域而不是精确的点，同时也考虑了机械臂和夹爪成功抓取的约束条件。

接下来，系统根据GPT-4o识别的是物体还是物体部分，使用LangSAM 或VLPart 进行分割，并裁剪包含这些物体的点云。GPT-4o将在每次抓取后根据新的视觉输入调整其选择，更新其"想象分割"以及对目标物体 o t o_t ot 和首选抓取位置的预测，使用裁剪后的点云。

为了确定最优抓取姿态 P g P_g Pg，系统基于裁剪后的点云生成一组候选抓取姿态A。为了验证我们的系统，我们在实验中保持变量一致。使用不同的抓取生成网络进行模拟和真实机器人测试。具体来说，我们在所有模拟比较中使用Graspnet-1Billion ，而在真实机器人比较中使用FGC-Graspnet 。这种方法确保了我们的结果是可靠的，并且观察到的任何差异都归因于抓取系统本身，而不是抓取生成网络的不一致性。候选抓取姿态A根据其接近GPT-4o建议的首选位置的程度以及各自抓取生成模块的抓取质量评分进行评估。系统对选定的目标 o t o_t ot 执行最优姿态 P g P_g Pg 。

这个闭环过程展示了系统的适应性，它根据每次抓取尝试后的更新场景观测 O t + 1 O_{t+1} Ot+1 生成下一个抓取策略 P g , t + 1 P_{g,t+1} Pg,t+1 。该流程根据需要调整其抓取策略，直到任务成功完成或达到最大迭代次数。它有效地管理了严重杂乱环境带来的挑战。

1）GPT-4o在目标物体选择中的角色与约束求解器

我们的抓取系统利用GPT-4o这一最先进的视觉语言模型（VLM），无缝集成视觉和语言信息。GPT-4o在上下文推理和知识表示方面表现出色，使其特别适用于杂乱环境中的复杂抓取任务。

目标物体选择：GPT-4o在识别与给定指令最匹配的物体方面表现出色，有效地关注相关区域并避免无关选择，即使在没有深度信息的情况下也是如此。这确保了系统不会尝试抓取不太可能隐藏目标物体的物体。例如，在图2中，左上角的小包裹被正确地忽略，因为它下面很可能没有任何隐藏物。

在目标物体选择过程中，GPT-4o使用语言指令g和场景上下文来选择最相关的物体。它考虑诸如物体与指令的相关性、抓取的难易程度以及潜在的障碍物等因素。这种有针对性的方法通过优先考虑最有可能导致任务成功完成的物体，确保了抓取的高效性和有效性。

该过程可以表述为：

其中，是 o t o_t ot 选定目标物体的颜色和名称， g g g是语言指令， O t c O_t^c Otc 是场景的颜色观测值， f s e l e c t f_select fselect 表示选择函数，该函数评估在指令和场景背景下每个物体 o o o的适用性。

处理遮挡和杂乱：GPT-4o策略性地识别和选择物体，即使在物体被严重遮挡或部分可见时也能确保准确抓取。系统智能地移除遮挡物以提高可见性和抓取准确性。

2）3×3网格策略用于最优抓取部分选择

3×3网格策略通过从选择精确点转变为在3×3网格内选择最优区域，增强了系统处理低分辨率图像（224×224）的能力。这种转变利用了更广泛的上下文信息，即使像素密度较低，也使抓取选择过程更加健壮和可靠。网格将目标物体（由分割算法得分最高的输出得出的边界框表示）划分为九个单元格。每个单元格都根据安全性、稳定性和可访问性进行评估。GPT-4o根据其对物体的想象分割，在此网格内输出一个优选的抓取位置，指导后续的分割和姿态生成步骤。

与依赖单一最佳抓取姿态选择的传统方法不同，我们的系统首先根据它们与优选位置的接近程度评估多个潜在的抓取姿态（前k名）。然后，从这些顶级候选者中，选择得分最高的姿态。这种方法与3×3网格策略相结合，以确定最优抓取区域，确保了所选抓取姿态既是最优的又是稳定的，从而显著提高了整体性能和成功率。

3）目标物体分割与裁剪区域生成

分割与裁剪：在我们的系统中，当GPT-4o识别出一个物体时，使用LangSAM框架来生成精确的分割掩码和边界框，这对于分割低分辨率图像特别有效。当GPT-4o识别出物体的特定部分（如手柄）时，利用VLPart进行详细的部件分割。如果VLPart无法准确分割该部件，会退回到LangSAM与3×3网格策略相结合，以确保我们的方法仍然能够准确地考虑和处理物体部件。

抓取姿态生成：为了确定最优抓取姿态Pg，系统基于裁剪后的点云生成一组候选抓取姿态A。候选抓取姿态A根据它们与GPT-4o建议的优选位置的接近程度以及各自抓取生成模块的抓取质量分数进行评估。经过评估后，得分最高的抓取姿态被选为最优抓取姿态。

鲁棒性和错误处理：尽管GPT-4o具有先进的功能，但偶尔也可能发生误识别。为了解决这个问题，采用迭代细化方法。如果抓取尝试失败，系统会捕获新图像，更新分割和抓取策略，并再次尝试。这种闭环过程确保了基于实时反馈的持续改进，从而显著提高了鲁棒性和可靠性。

消融实验（表1）表明，当我们将LangSAM与GPT-4o结合用于抓取点选择时，与单独使用GPT-4o相比，系统性能显著提高。通过将GPT-4o的上下文理解与LangSAM的精确分割和VLPart的详细部件识别相结合，我们的系统实现了更高的成功率和更高的效率。这种协同作用确保了更准确的抓取和更复杂场景的更佳处理。

4）抓取姿态生成与选择

候选抓取姿态生成：使用局部点云，系统生成一组候选抓取姿态：

抓取姿态评估：使用一种分析计算方法对每个抓取进行评分。基于来自GraspNet-1Billion的改进力封闭度量标准，通过逐渐将摩擦系数µ从1减小到0.1（直到抓取不再是对极的）来计算得分。摩擦系数µ越低，成功抓取的概率越高。我们的得分s定义为：

s在(0,1]区间。

每个候选抓取姿态都根据其与优选抓取位置的对齐程度进行评估。通过最大化一个考虑每个姿态适用性的得分函数来选择最优抓取姿态：

5）针对重度杂乱环境的闭环鲁棒系统

我们的系统通过闭环控制机制增强了在重度杂乱环境中的鲁棒性，该机制在每次抓取尝试后都会不断更新场景理解，确保使用最新的信息。裁剪区域和抓取姿态会根据实时反馈进行动态调整，从而使系统能够专注于最相关的区域并选择最优抓取姿态。

如图2所示，图像序列展示了根据用户指令选择目标物体的过程。首先，用户给出目标物体"芒果"并输入命令"给我一个水果"。初始的彩色输入图像来自模拟。GPT-4o根据提示选择一个物体（例如绿色瓶子）和一个优选位置，并将其分割成3×3网格。这些信息将被传递给LangSAM进行分割。LangSAM将图像中所有绿色瓶子进行分割，并裁剪出包含所有绿色瓶子的点云。然后，它在裁剪后的点云中生成所有可能的抓取姿态。具有最高LangSAM分割得分的姿态被选为目标物体。目标点是GPT-4o提供的优选物体位置的中心。然后，系统评估距离目标点最近的前10个姿态，并选择得分最高的姿态，最后在绿色瓶子上执行该姿态。即使GPT-4o的初步选择与目标不匹配（例如选择瓶子而不是芒果），由于颜色特征的明显差异，LangSAM的分割和评分过程也会纠正错误并锁定在目标物体上。

实验分析

我们的系统设计用于在模拟和现实世界环境中都能有效工作，并针对每个环境的独特挑战和限制进行了量身定制的适应。

模拟环境使用PyBullet构建，包括一个UR5机械臂、一个ROBOTIQ-85夹爪和一个Intel RealSense L515相机。原始图像被调整为224×224像素，并通过LangSAM进行分割以获得精确的对象掩码。我们将解决方案与最先进的方法Vision-Language Grasping (VLG)和OVGrasp进行了比较，这些方法使用相同的GraspNet主干以确保公平比较。此外，还将我们的方法与直接使用GPT-4o选择目标抓取点而不进行额外处理或与其他模块集成的方法进行了比较。

我们的杂乱环境实验集中在各种任务上，如抓取圆形物体、取用餐具或饮料等物品，以及其他特定请求。每个测试用例包括15次运行，通过两个指标来衡量：任务成功率和动作次数。任务成功率是指在15次测试运行中，在15次动作尝试内成功完成任务的平均百分比。动作次数是指每完成任务一次所需的平均动作数。

结果。表1总结了结果，表明我们的系统在整体成功率和效率指标上显著优于基线方法。在杂乱环境中的平均成功率为0.980，平均步数为3.39，平均成功步数为3.32（如图3所示）。这些结果表明，我们的系统不仅在完成抓取任务方面表现出色，而且效率更高，成功完成任务所需的步数更少。

还评估了系统在重度杂乱场景中的性能，其中物体被部分或完全遮挡。这些场景（如图4所示）包含多达30个未见过的物体，并且每次运行允许最多50次动作尝试。表1中的结果表明，在这些具有挑战性的条件下，我们的系统显著优于基线方法，实现了最高的成功率2，并且成功抓取所需的步数最少。

消融研究。为了评估我们系统中不同组件的贡献，这里进行了消融研究。这些消融研究的结果如表1所示，研究突出了我们完整系统的有效性。一种配置标记为"无3×3"，它不会将对象分割为3×3网格来选择抓取点，而是使用对象边界框的中心。另一种配置"GPT裁剪"使用GPT-4o来确定点云的裁剪坐标，从而专注于与抓取相关的区域。"无GPT4o"配置则完全排除了GPT-4o的使用。这些实验表明，我们集成了所有组件的完整系统实现了优越的性能，证明了每个部分在提升整体有效性方面的重要性。

真实世界场景实验

我们将系统的功能扩展到现实世界环境中，以处理复杂多变的场景。设置包括一个具有6个自由度的UR5机械臂和一个Robotiq 85夹爪。使用RealSense D455相机捕获观测数据，提供用于点云构建的彩色和深度图像。使用MoveIt运动规划框架和RRT*算法确定抓取的目标姿态。ROS管理通信，运行在一台配备12GB 2080Ti GPU的工作站上。我们的ThinkGrasp模型部署在具有双3090 GPU的服务器上，使用Flask，通过GPT-4o API在10秒内提供抓取姿态预测。

在我们的现实世界实验中，将系统与VL-Grasp进行了比较，使用了相同的FGCGraspNet下游抓取模型，以确保对我们的战略部分抓取和重度杂乱处理机制引入的改进进行公平评估。

结果。我们的结果（表3）表明，即使在杂乱的环境中，系统在识别和抓取目标物体方面也具有较高的成功率。VLPart和GPT-4o的集成显著提高了系统的鲁棒性和准确性。然而，由于单幅图像数据的局限性、下游模型产生的低质量抓取姿态以及UR5机器人稳定性和控制的差异，也发生了一些失败情况。这些失败凸显了稳健的图像处理对于确保准确的场景解释、精确的抓取姿态生成以提高成功率以及稳定的机器人控制操作的重要性。解决这些因素对于进一步提升系统性能至关重要。附录（表A）中提供了更多技术细节和实验设置。

reference

http://arxiv.org/pdf/2407.11298