IROS 2025论文分享：基于大语言模型与行为树的人机交互学习实现自适应机器人操作

近年来，大型语言模型（Large Language Model, LLM）展现出了强大的自然语言处理能力。

许多研究已将LLM应用于机器人，以实现指令执行任务，例如SayCan、RT-2、VoxPoser等。然而，这些方法需要反复调用LLM来处理外部干扰，这是一个非常耗时的过程。机器人领域的一个活跃研究方向是将LLM与行为树（Behavior Tree, BT）相结合。LLM被用于将用户指令解释为包含任务目标条件的行为树。当外部干扰导致BT中的条件无法达成时，行为树规划器（BT Planner）会基于动作数据库（Action Database），迭代地将未达成的条件扩展为子树，旨在通过执行动作来达成这些条件。尽管这些方法能够以较少的LLM调用次数处理外部干扰，但动作数据库是人工预先构建的。

当应用于超出BT Planner能力范围的新任务时，则需要具备增量学习能力。强化学习需要大量的训练和精心设计的奖励函数；模仿学习需要大量的专家示范数据；无监督学习可能导致结果偏离预期。一种新颖的方法是使用LLM来学习机器人操作。

然而，使用LLM生成的知识存在不确定性，如果直接用于机器人，可能会存在安全隐患。因此，有必要在学习的评估阶段引入人机交互。研究者提出了一种人机交互学习机制。首先为LLM设计了一个上下文，包括提示工程（Prompt Engineering）、操作基元（Manipulation Primitives, MPs）和动作数据库。提示工程用于规范LLM的输出；MPs是一组与机器人底层控制器相关的基本操作；动作数据库为LLM提供演示示例。当用户指示机器人设计新动作时，LLM通过上下文学习生成动作知识。由于LLM的空间几何理解能力较弱，因此在学习机制中引入了人机交互，引导LLM修正和完善这些知识。经过多轮引导和最终用户确认后，将其添加到动作数据库中。生成的动作知识包括前置条件、后置条件和一组MPs，会以BT的形式实施，其中动作由MP实现。此外，BT中的条件可以由BT Planner动态扩展为子树，使机器人能够在任务执行过程中应对外部干扰。为了评估提出的方法，设计了8个涉及对象操作的任务，分为三个难度级别。(1) Easy：需要利用动作数据库中的样本来推理MPs的顺序以完成任务；(2) Medium：除了推理MPs的顺序外，还需要考虑MPs中的关键参数；(3) Hard：除了推理MPs的顺序和关键参数外，还需要考虑待操作对象的特征；

基线方法使用 LLM 基于上下文和动作数据库生成动作知识，但没有人机交互学习，而所提方法最多可以提供3次交互反馈。使用两种 LLM（DeepSeek-V3和 ChatGPT-4o）进行测试。在这 8 项任务中，所提方法的学习性能优于基线方法。通过人机交互修正动作知识，所提方法在这 8 项任务中的成功率超过 80%。为了验证所生成动作知识的适应性，为这8项任务设计了外部干扰。所提方法所获得的动作知识在这8项具有外部干扰任务中的成功率超过70%。

这表明该动作知识具有良好的适应性，且大多数任务失败是由于视觉系统的识别偏差造成的。为了研究所生成动作知识的泛化能力，为这8项任务设计了新的操作对象。生成的动作知识在Stack、PressButton、Upright和Build任务中的成功率超过 70%。这是因为动作知识中的MPs参数适用于新的操作对象。然而，在Insert、BoxOut、OpenDrawer和Unscrew任务中成功率低于 40%。这是因为动作知识中的MPs参数不适用于新的操作对象。如果在将生成的动作知识应用于新的操作对象之前对其进行微调，则可以进一步提高任务的成功率。总的来说，本文提出了一种人机交互学习机制，核心在于生成可直接应用于机器人自适应操作的动作知识，并通过上下文学习实现，无需知识迁移。多项实验结果表明，该方法能够提升机器人的学习性能，使其能够完成任务并应对外部干扰。