IROS 2025论文分享:基于大语言模型与行为树的人机交互学习实现自适应机器人操作

近年来,大型语言模型(Large Language Model, LLM)展现出了强大的自然语言处理能力。

许多研究已将LLM应用于机器人,以实现指令执行任务,例如SayCan、RT-2、VoxPoser等。然而,这些方法需要反复调用LLM来处理外部干扰,这是一个非常耗时的过程。机器人领域的一个活跃研究方向是将LLM与行为树(Behavior Tree, BT)相结合。LLM被用于将用户指令解释为包含任务目标条件的行为树。当外部干扰导致BT中的条件无法达成时,行为树规划器(BT Planner)会基于动作数据库(Action Database),迭代地将未达成的条件扩展为子树,旨在通过执行动作来达成这些条件。尽管这些方法能够以较少的LLM调用次数处理外部干扰,但动作数据库是人工预先构建的。

当应用于超出BT Planner能力范围的新任务时,则需要具备增量学习能力。强化学习需要大量的训练和精心设计的奖励函数;模仿学习需要大量的专家示范数据;无监督学习可能导致结果偏离预期。一种新颖的方法是使用LLM来学习机器人操作。

然而,使用LLM生成的知识存在不确定性,如果直接用于机器人,可能会存在安全隐患。因此,有必要在学习的评估阶段引入人机交互。研究者提出了一种人机交互学习机制。首先为LLM设计了一个上下文,包括提示工程(Prompt Engineering)、操作基元(Manipulation Primitives, MPs)和动作数据库。提示工程用于规范LLM的输出;MPs是一组与机器人底层控制器相关的基本操作;动作数据库为LLM提供演示示例。当用户指示机器人设计新动作时,LLM通过上下文学习生成动作知识。由于LLM的空间几何理解能力较弱,因此在学习机制中引入了人机交互,引导LLM修正和完善这些知识。经过多轮引导和最终用户确认后,将其添加到动作数据库中。生成的动作知识包括前置条件、后置条件和一组MPs,会以BT的形式实施,其中动作由MP实现。此外,BT中的条件可以由BT Planner动态扩展为子树,使机器人能够在任务执行过程中应对外部干扰。为了评估提出的方法,设计了8个涉及对象操作的任务,分为三个难度级别。(1) Easy:需要利用动作数据库中的样本来推理MPs的顺序以完成任务;(2) Medium:除了推理MPs的顺序外,还需要考虑MPs中的关键参数;(3) Hard:除了推理MPs的顺序和关键参数外,还需要考虑待操作对象的特征;

基线方法使用 LLM 基于上下文和动作数据库生成动作知识,但没有人机交互学习,而所提方法最多可以提供3次交互反馈。使用两种 LLM(DeepSeek-V3和 ChatGPT-4o)进行测试。在这 8 项任务中,所提方法的学习性能优于基线方法。通过人机交互修正动作知识,所提方法在这 8 项任务中的成功率超过 80%。为了验证所生成动作知识的适应性,为这8项任务设计了外部干扰。所提方法所获得的动作知识在这8项具有外部干扰任务中的成功率超过70%。

这表明该动作知识具有良好的适应性,且大多数任务失败是由于视觉系统的识别偏差造成的。为了研究所生成动作知识的泛化能力,为这8项任务设计了新的操作对象。生成的动作知识在Stack、PressButton、Upright和Build任务中的成功率超过 70%。这是因为动作知识中的MPs参数适用于新的操作对象。然而,在Insert、BoxOut、OpenDrawer和Unscrew任务中成功率低于 40%。这是因为动作知识中的MPs参数不适用于新的操作对象。如果在将生成的动作知识应用于新的操作对象之前对其进行微调,则可以进一步提高任务的成功率。总的来说,本文提出了一种人机交互学习机制,核心在于生成可直接应用于机器人自适应操作的动作知识,并通过上下文学习实现,无需知识迁移。多项实验结果表明,该方法能够提升机器人的学习性能,使其能够完成任务并应对外部干扰。

相关推荐
星幻元宇VR2 小时前
VR航空航天科普设备【VR时空直升机】
科技·学习·安全·生活·vr
_李小白2 小时前
【android opencv学习笔记】Day 2: Mat类(图片数据结构体)
android·opencv·学习
harder3213 小时前
RMP模式的创新突破
开发语言·学习·ios·swift·策略模式
Zzj_tju3 小时前
视觉语言模型技术指南:图像是怎么“接入”语言模型的?视觉编码器、投影层与对齐机制详解
人工智能·语言模型·自然语言处理
程序猿乐锅4 小时前
【Tilas|第三篇】多表SQL语句
数据库·经验分享·笔记·学习·mysql
徐某人..4 小时前
基于i.MX6ULL平台的智能网关系统开发
arm开发·c++·单片机·qt·物联网·学习·arm
AOwhisky4 小时前
Kubernetes 学习笔记:集群管理、命名空间与 Pod 基础
linux·运维·笔记·学习·云原生·kubernetes
大模型任我行5 小时前
谷歌:大模型规划最优性超越传统算法
人工智能·语言模型·自然语言处理·论文笔记
光影少年5 小时前
大屏页面,一次多个请求,请求加密导致 点击 全局时间选择器 时出现卡顿咋解决(面板收起会延迟1~2秒)
前端·javascript·vue.js·学习·前端框架·echarts·reactjs
sakiko_6 小时前
UIKit学习笔记2-组件嵌套、滚动视图等
笔记·学习·objective-c·swift·uikit