CMU 大模型驱动的自主检错纠错能力机器人

随着机器人在复杂环境中执行长期任务的期望增加，失败变得不可避免。因此，机器人系统需要能够反思过去的经验，并以自然语言解释其失败，最后根据得到的失败解释来进行纠正规划。作者假设有效的失败推理框架需要几个关键组件：

(1)将多模态机器人感官数据转换为结构化、统一格式的组件；

(2)推理机器人计划预期结果是否达成的组件；

(3)以及基于失败推理来纠正失败并完成任务的规划能力

针对上述问题，该文章提出一个自主检错纠错的框架REFLECT ，来指导机器人完成任务。该框架主要有几个要点，一是使用视觉和听觉的多模态能力得到机器人所在场景的关键时刻的更加清晰的环境信息，然后作为文本信息的一部分一同构成提前制作好的提示词模板，输入LLM 来进行总结，保存关键的机器人行为路径信息；二是在机器人行动的过程中抽出关键的时间点，渐进式地对每一个子操作做是否达成的判断，该判断是以一中环境信息的总结为根据的；三是判断任务出错类型是执行出错类还是规划出错类，然后以不同的提示词方式驱动LLM LLM 来进行纠正规划的生成，然后执行纠正计划完成任务。最后该文章还提出一个名为"RoboFail" "RoboFail" "RoboFail" "RoboFail" "RoboFail" "RoboFail" 的数据集，包含各种失败场景和任务案例，测试机器人的检错纠错能力。

相关论文"REFLECT REFLECT REFLECT REFLECT REFLECT ：Summarizing Robot Experiences for FaiLure Explanation and correction" 。

框架设计

1 层次化机器人摘要 (Hierarchical Robot Summary)

(1) 感官输入摘要：将RGB RGB RGB -D 视觉数据、音频和机器人状态转换为任务信息丰富的场景图和音频摘要。物体检测用的是MDETR MDETR MDETR MDETR 模型，物体状态分析用的是CLIP CLIP 模型，声音识别用的是AudioCLIP AudioCLIP AudioCLIP AudioCLIP 模型。

(2) 基于事件的摘要：选择关键帧并生成描述性文本，以便快速定位失败。生成的描述文本格式下图所示，场景中的关键信息包括物体、物体状态、物体间关系、以及机械臂与物体关系（是否抓着物体）、声音信息。

(3) 基于子目标的摘要：为每个子目标的结束帧提供观察，以便LLM LLM 可以识别机器人执行结果与高级计划之间的不一致。如下图则是根据上一个摘要中得到的场景来判断每一个子目标是否完成的模板。

2 渐进式失败解释 (Progressive Failure Explanation)

(1) 成功验证：使用子目标摘要来验证每个子目标是否成功。

(2) 执行分析：如果子目标失败，使用事件摘要来详细解释失败原因。

(3) 计划分析：如果所有子目标都成功，但任务失败，则分析原始计划中的失败原因。

如下图它通过对每一个子目标的是否达成判断，这个机制可以判断错误是发生在执行错误还是规划错误，进而生成错误解释为后续纠正错误提供不同的参考。

3 失败纠正规划器

规划：基于LLM LLM 生成的失败解释，生成一个可执行的纠正计划。图11 便是该框架的总图并续上一个易于理解的例子。在虚拟环境中（该方法在虚拟和现实都做了验证）机器人的视觉模块检视场景生成3D 点云图，根据点云关系分析物体间的空间关系，再由视觉模型得到物体的状态；音频模块提取超过阈值的声音位置作为关键帧进行识别，分析得到声音代表的意思；两个模态都转以文本信息；在图中可以看出机器人选择的关键帧的规则是，场景物体关系改变上课、每个子目标操作完成时刻、声音出现和结束时刻等；最后生成基于事件总结的摘要，后续所有推理都是基于此。

数据集

在仿真中，在AI2THOR AI2THOR AI2THOR AI2THOR AI2THOR AI2THOR 中生成任务执行数据并手动注入故障。数据集总共包含100 个失败场景，每10 个任务对应10 个案例。我们存储从模拟中获得的RGB RGB RGB -D 观测值、声音(共20 类)、机器人状态数据以及真实数据元数据。真实世界的数据集是通过人类在玩具厨房环境中对UR5e UR5e UR5e UR5e 机器人手臂的遥操作收集的。该数据集包含11 个任务，共30 个故障场景。存储RGB RGB RGB -D 观察结果(使用Intel RealSense D415) 、录制的声音(使用RØDE VideoMic Pro+) 和机器人本体感觉数据。故障场景的分类如下图所示。

实验评估

文章系统地评估了REFLECT在定位、解释和纠正机器人故障方面的能力。在AI2THOR模拟中，代理通过动作原语与环境交互，如拾，切换，向左移动。作者假设该框架可以访问真实目标检测和仿真中的检测。还评估了该框架总结真实世界机器人传感数据的能力。真实世界的故障数据是由人类远程操作UR5e UR5e UR5e 机器人手臂收集的，以根据提供的高层计划模仿机器人策略。作者使用MDETR进行对象检测，CLIP 进行对象状态检测，AudioCLIP进行声音检测，GPT -4 作为LLM 。在实验中评估了以下指标：

(1)Exp (explanation) ：由人类评估员s4 确定的正确且信息量为预测失败解释的百分比。

(2)Loc(localization) ：预测故障时间与实际故障时间一致的百分比。如果预测的时间落在数据集中标注的失败时间范围内，则认为它是对齐的。

(3)Co-plan (correction planning success rate) ：执行修正计划后成功的任务百分比。通过比较最终状态和指定的目标条件来确定任务的成功。

虚拟环境中和真实环境中的实验结果由表1 展示：

实验结果证明了：

(1) REFLECT能够生成信息丰富的故障解释，以协助纠正计划。

(2) 音频数据对故障解释很有用。

(3) 与任务相关的对象空间和状态信息至关重要。

(4) 渐进的失败解释很重要。

(5) 层次结构很重要。

(6) 故障解释有助于纠正。

结论

本文提出一个框架REFLECT，将多感官观察转换为机器人过去经验的分层摘要，并逐查询LLM LLM 以进行故障解释。然后，生成的解释可以指导语言规划器纠正错误并完成任务。为了评估框架，创建了一个机器人在模拟和现实世界中失败执行的数据集，并表明REFLECT 与几个基线和消融相比取得了更好的性能。作者鼓励未来的工作扩展该框架，并探索机器人摘要的更多用例。