论文阅读:Inner Monologue: Embodied Reasoning through Planning with Language Models

地址:Inner Monologue: Embodied Reasoning through Planning with Language Models

摘要

近年来的研究表明,大型语言模型(Large Language Models, LLM)的推理能力可应用于自然语言处理之外的领域,如机器人的规划与交互。这些具身任务要求智能体理解世界的诸多语义层面:可用技能库、这些技能如何影响世界,以及世界的变化如何映射回语言。在具身环境中进行规划的 LLM,不仅需要确定 "执行哪些技能",还需明确 "如何执行" 与 "何时执行"------ 而这些答案会随着智能体自身的选择实时变化。本研究探索了在这类具身场景中,LLM 在无需任何额外训练的情况下,对自然语言形式反馈进行推理的能力。我们提出:通过利用环境反馈,LLM 能够形成 "内心独白(Inner Monologue)",从而在机器人控制场景中更充分地进行处理与规划。我们研究了多种反馈来源,包括成功检测、场景描述与人类交互。实验结果表明,在三个任务领域(模拟与真实桌面整理任务、真实世界厨房环境中的长时程移动操作任务)中,闭环语言反馈显著提升了高层指令的完成效果。

一、概述

本研究聚焦于LLM 在机器人具身任务中的推理能力提升核心痛点是传统 LLM 在具身规划中多为 "单向输出固定计划",无法应对环境动态变化(如技能执行失败、物体遮挡)。

  1. 设计方法:研究受人类 "内心独白"(解决任务时的实时思考过程)启发,提出 "Inner Monologue" 框架,通过将环境反馈以自然语言形式注入 LLM 提示词,实现闭环规划,无需额外训练 LLM 或底层机器人技能。
  2. 实验验证 :研究通过三个典型任务场景验证框架有效性:1)模拟桌面积木整理(Ravens 环境);2)真实桌面整理(UR5e 机械臂);3)真实厨房移动操作(Everyday Robots 机器人)。对比基线模型(如 CLIPort、SayCan),Inner Monologue 在 "长时程任务""未见过的任务""对抗性干扰场景" 中表现更优,例如真实桌面整理任务中,其(物体识别 + 成功检测反馈)变体成功率达 90%,而基线仅 20%;厨房场景中,面对强制技能失败时,SayCan 成功率接近 0%,而 Inner Monologue 仍能高效重试 / 重规划。
  3. 涌现能力:研究还发现 Inner Monologue 涌现出多种能力:动态适应新指令(任务中途变更目标)、自提替代目标(面对不可行任务时更换方案)、多语言交互(理解中文指令)、场景交互理解(回答任务相关场景问题)等。
  4. 研究局限:在于部分反馈依赖 "Oracle(如人类标注)",且底层机器人技能性能会成为整体任务的瓶颈。

二、研究动机

1. 传统 LLM 具身规划的 "单向性" 问题

传统依赖 LLM 的机器人规划方法(如 SayCan、Language Models as Zero-Shot Planners)仅能 "一次性生成固定技能序列",假设所有技能执行必定成功,无法应对具身环境的动态变化 ------ 例如技能执行失败(如抓取物体滑落)、物体遮挡(初始未检测到被遮挡物体)、环境干扰(如外力碰移物体)等场景。这类方法缺乏 "执行 - 反馈 - 重规划" 的闭环,导致在长时程或动态任务中鲁棒性极差,例如厨房场景中强制技能失败时,SayCan 成功率接近 0% 。

2. 具身任务中 "语义知识与环境反馈脱节" 问题

具身任务要求机器人理解 "技能 - 世界 - 语言" 的三重映射(可用技能库、技能对世界的影响、世界变化如何映射回语言),但传统方法存在两类脱节:

  • 纯视觉政策(如 CLIPort):缺乏 LLM 的语义理解能力,无法处理模糊指令(如 "拿健康的饮料"),且对未见过的长时程任务泛化性差(模拟场景中 Unseen 任务成功率为 0%) ;
  • 无反馈 LLM 规划:虽具备语义知识,但无法结合实时环境状态(如不知道桌上具体有哪些饮料),导致计划与实际环境脱节,例如开环 Object LLM 在真实桌面堆叠任务中因遮挡仅能检测部分物体,成功率仅 20% 。

3. 具身系统的 "高训练成本" 问题

此前多数具身推理方法需针对特定任务微调 LLM 或底层机器人技能(如为桌面整理任务微调 LLM、为厨房任务重新训练抓取政策),导致系统灵活性低、跨场景迁移成本高。论文需解决 "如何在无需额外训练的前提下,让 LLM 适配不同具身场景" 的问题 ------ 仅依赖预训练 LLM(如 InstructGPT、PALM)和预训练底层技能,通过最小化的提示工程实现跨场景复用 。

4. 具身任务中 "反馈利用的碎片化" 问题

环境反馈是具身推理的核心,但传统方法对反馈的利用存在局限:要么仅用单一反馈(如仅用视觉反馈调整动作,无文本语义关联),要么反馈形式非 LLM 可直接理解(如数值化的成功概率),无法与 LLM 的语义推理能力结合。论文需解决 "如何将多源反馈(成功检测、场景描述、人类交互)统一为 LLM 可理解的形式,并协同提升规划效果" 的问题 。

三、设计方法

1. 问题定义

  • 任务场景 :具身机器人需执行人类给出的高层自然语言指令(如 "把桌上的饮料拿给我"),机器人仅能调用预训练的短时程技能库,每个技能附带文本描述,通过强化学习或行为克隆训练)。
  • 核心需求:LLM 作为 "规划器",需生成技能序列以完成指令,同时利用环境反馈(文本形式)"闭环调整" 计划,提升对动态环境的鲁棒性。
  • 反馈形式:包括成功检测(技能是否执行成功)、场景描述(物体识别、任务进度)、人类交互(模糊指令澄清、偏好反馈)。

2. Inner Monologue 框架设计

框架核心是 **"持续注入反馈的闭环 LLM 规划"**,区别于传统 LLM "一次性生成固定计划" 的单向模式,具体流程如下:

  1. 初始化:将人类高层指令、机器人技能库文本描述、初始场景反馈(如 "桌上有可乐、水、巧克力")作为 LLM 的初始提示词。
  2. 首次规划:LLM 基于初始信息,分解指令为可执行的技能步骤(如 "走向桌子→拿起可乐→拿给用户")。
  3. 技能执行与反馈采集:机器人执行首个技能后,通过感知模块(如物体检测器 MDETR、成功检测器)获取反馈,并转化为文本(如 "拿起可乐:失败""场景中新增可见物体:无")。
  4. 反馈注入与重规划:将上一步的反馈文本追加到 LLM 的下一轮提示词中,LLM 基于 "最新环境状态" 重新调整计划(如 "再次尝试拿起可乐")。
  5. 终止条件:重复 "执行 - 反馈 - 重规划" 流程,直到 LLM 生成 "完成(done)" 指令或达到最大步骤数。

3、闭环反馈机制设计

1. 成功检测反馈(Task-Specific Feedback)
  • 痛点:技能执行是否成功(如抓取、放置、导航),决定 "是否重试"。
  • 设计细节
    • 数据来源
      • 模拟场景:直接读取模拟器地面真值(物体姿态、接触力),判断成功(如放置位置偏差 < 阈值)。
      • 真实场景:
        • 视觉检测:对比动作前后的物体边界框(如放置后物体是否在目标区域)。
        • 力控反馈:机械臂接触力(如抓取时检测到 5N 握力)。
        • 融合模型:用 CLIP 微调的二分类器,结合 "前见之明(预测成功)" 和 "后见之明(反推动作)" 抑制假阳性(厨房场景)。
    • 文本化格式
      • 基础版:Success: True/False(如抓取可乐失败→Success: False)。
      • 进阶版:追加失败原因(如Success: False, reason: object too heavy)。
    • 与 LLM 交互
      • 反馈直接追加到提示词,驱动重规划:
        • False → LLM 优先生成 "重试同一技能" 或 "调整策略"(如 "更用力抓取")。
        • True → LLM 推进到下一个子目标。
2. 被动场景描述反馈(Passive Scene Feedback)
  • 痛点:LLM 需要实时掌握 "环境中有什么、任务完成了什么",无需主动提问。
  • 设计细节
    • 子类型 1:物体识别反馈

      • 数据来源
        • 模拟场景:直接读取模拟器物体列表(ground truth)。
        • 真实场景:开放词汇检测模型(MDETR、ViLD)输出物体类别 + 边界框(过滤置信度 > 0.5 的结果),动态维护 "可见 / 遮挡物体列表"(如遮挡的柠檬→Occluded objects = [lemon])。
      • 文本化格式Scene: Visible objects = [apple, coke]; Occluded objects = [lemon]
    • 子类型 2:任务进度反馈

      • 数据来源 :对比 "目标状态"(如["黄积木进蓝碗", "红积木进黄碗"])与已完成动作,提取已完成子目标。
      • 文本化格式Scene: Completed = ["Yellow block in blue bowl"]
3. 主动场景描述反馈(Active Scene Feedback)
  • 痛点:指令模糊(如 "拿健康的食物")或环境信息缺失(如遮挡导致漏检),需 LLM 主动澄清。
  • 设计细节
    • 触发条件:LLM 发现计划依赖未知信息(如 "饮料类型""柜台上的零食")。
    • 交互流程
      1. LLM 生成问题 :用自然语言提问(如What snacks are on the counter?)。
      2. 外部模块回答
        • 人类交互:直接回复文本(如Something with caffeine→对应 "可乐")。
        • 模型回答:调用 VQA 模型(基于 CLIP 的图像问答),从场景图像提取答案(如 "柜台上有苹果和薯片袋")。
      3. 反馈注入:将回答追加到提示词,LLM 基于新信息重规划。

4. 关键组件设计

组件 功能描述 实现方式举例
LLM 规划器 分解高层指令、结合反馈重规划 模拟 / 真实桌面任务用 InstructGPT-1.3B,厨房任务用 PALM-540B
反馈生成模块 将环境状态转化为文本反馈 成功检测:基于 CLIP 微调的二分类模型;物体识别:MDETR/ViLD
底层技能调用 执行 LLM 生成的技能步骤,无需额外训练 桌面任务:CLIPort+TransporterNets 拾取策略;厨房任务:行为克隆训练的导航 / 抓取技能
少样本提示 无需微调 LLM,仅通过示例提示教会 LLM "如何利用反馈" 提示词中包含 "技能执行→反馈→重规划" 的示例(如附录中的积木整理案例)

四、数据集

1. 模拟桌面整理场景(Ravens-based 环境)

该场景聚焦 "积木 / 碗的整理任务",数据集分为 "底层技能预训练数据" 和 "任务测试数据" 两类:

  • 底层技能预训练数据 :用于训练 CLIP-based Transporter Net 拾取 - 放置原语,共 20000 条人工收集的演示数据。每条演示包含 4 类信息:1)结构化语言指令(如 "拿起 [x] 并放在 [y] 上");2)环境顶视 RGB-D 观测图像;3)专家拾取坐标;4)专家放置坐标。其中,专家坐标直接来自模拟器的地面真值(ground-truth)物体姿态,无需人工标注;演示数据覆盖场景中所有物体(避免泛化到 "物体实例" 的干扰,聚焦 "长时程任务规划" 能力验证)。
  • 任务测试数据:共设计 8 个任务(4 个 "已见过任务" 用于少样本提示,4 个 "未见过任务" 用于泛化性测试),每个任务的初始环境随机生成 ------ 最多 4 个积木、3 个碗,颜色从 10 种颜色中随机选择,物体间距强制为 15cm 以避免初始碰撞;任务指令中的 "目标位置"(如 "左上角""[x] 碗")从 9 个预设位置 / 场景物体中随机采样。

2. 真实桌面整理场景(UR5e 机械臂平台)

该场景依赖预训练模型与人工设计的测试场景,核心数据来源如下:

  • 目标检测预训练数据:采用 MDETR(开放词汇目标检测模型)的预训练权重,其训练数据来自公开的 "图像 - 文本对"(如 COCO、 Flickr30k),论文未额外采集真实桌面物体数据进行微调。
  • 任务测试数据:人工搭建两类测试场景:1)积木堆叠任务:3 个 4cm 塑料立方体(初始 2 个已堆叠,1 个单独放置);2)物体分拣任务:3 个塑料玩具水果(苹果、草莓、李子)、3 个塑料玩具瓶子(番茄酱、芥末、饮料瓶)、3 个塑料盘子。场景中通过 "物体遮挡" 模拟真实感知噪声(如初始仅能检测到部分物体)。
  • 噪声注入数据:为测试鲁棒性,人工向机器人政策动作注入高斯噪声 ------ 平面平移噪声的标准差为:堆叠任务 σ=1.5cm、分拣任务 σ=0.7cm,所有噪声样本均限制在 1.5σ 内。

3. 真实厨房移动操作场景(Everyday Robots 平台)

该场景数据集依赖 "底层技能预训练数据""成功检测器训练数据" 和 "任务测试数据",核心来源如下:

  • 底层技能预训练数据 :用于训练导航、抓取、抽屉操作等技能:1)行为克隆(BC)数据 :68000 条遥控操作演示(操作员用 VR 手柄控制机器人末端执行器姿态,运动数据映射到机器人)+12000 条自主执行成功案例,数据由 10 个机器人在 11 个月内持续收集;2)强化学习(RL)数据:价值函数(用于动作可行性接地)来自 RL 智能体的 Q 网络,训练数据遵循 SayCan 的 RL 设置(未额外新增数据)。
  • 成功检测器训练数据:离线收集的 "技能执行 - 结果" 配对数据,包括遥控操作演示和自主 roll-outs(执行低级别技能的过程记录),每条数据含 "初始图像观测、最终图像观测、技能文本描述(如'拿起可乐')、二元成功标签(成功 / 失败)"。
  • 任务测试数据:模拟办公室厨房环境,包含 5 个预设位置(如 "近柜台""远柜台""垃圾桶")和 15 个 household 物品(如可乐罐、7up 罐、薯片、苹果、海绵);设计 3 类任务(4 个操作任务、2 个抽屉任务、2 个长时程移动 + 操作任务),共 120 次评估,部分评估中人工注入 "对抗性干扰"(如强制技能执行失败)。
  • 物体识别反馈数据 :分为两类:1)人类标注数据 :结构化的物体存在性反馈(如 "场景:可乐罐、苹果"),用于提供 "最优精度的反馈基线";2)预训练模型预测数据:测试 ViLD 和 MDETR(均无厨房领域微调)的零样本物体检测结果,作为 "自动化反馈" 的可行性验证,共评估 10 个代表性厨房任务 episode。

五、实验设计

论文针对三个核心实验场景(模拟桌面整理、真实桌面整理、真实厨房移动操作),分别设计了 "基线模型对照组" 与 "反馈变体实验组",以验证 "闭环语言反馈" 的有效性及不同反馈类型的互补性。所有对照组与实验组均共享 "预训练 LLM" 和 "底层机器人技能",仅通过 "是否注入反馈""注入反馈类型" 区分,具体设计如下:

1. 模拟桌面整理场景(Ravens-based 环境)

该场景聚焦 "长时程任务泛化性" 与 "抗噪声能力",对照组与实验组设置如下:

组别类型 具体组别 核心差异 作用
基线对照组 CLIPort 无 LLM 规划,仅用单步视觉语言政策(CLIPort),依赖固定步骤终止(k=15) 验证 "无 LLM 语义推理" 的传统视觉政策在长时程任务中的局限性
基线对照组 CLIPort + Oracle 在 CLIPort 基础上增加 "任务终止 Oracle"(人工提示任务完成) 排除 "终止判断" 对性能的干扰,验证 "无 LLM 规划" 的上限
Inner Monologue 实验组 Object + LLM 仅注入 "物体反馈"(场景中物体列表),无成功检测 / 场景进度反馈 验证 "单一被动场景反馈" 的作用,对比 Socratic Models 类似设置
Inner Monologue 实验组 Object + Success + LLM 注入 "物体反馈 + 成功检测反馈"(技能执行成功 / 失败) 验证 "任务特定反馈(成功检测)" 与 "被动场景反馈(物体)" 的协同作用
Inner Monologue 实验组 Object + Scene + LLM 注入 "物体反馈 + 场景反馈"(已完成子目标列表),额外添加思维链(Chain-of-Thought) 验证 "任务进度反馈" 对长时程目标跟踪的价值

2. 真实桌面整理场景(UR5e 机械臂)

该场景聚焦 "真实感知噪声下的鲁棒性",对照组与实验组围绕 "反馈闭环" 设计:

组别类型 具体组别 核心差异 作用
基线对照组 Object LLM(开环) 仅在任务初始时执行一次物体识别,无后续反馈注入,LLM 一次性生成固定计划 验证 "开环 LLM 规划" 在真实场景(遮挡、感知误差)中的缺陷
Inner Monologue 实验组 Object + LLM 实时注入 "物体反馈"(动态更新可见 / 消失物体列表),无成功检测反馈 验证 "实时被动场景反馈" 对遮挡问题的解决效果
Inner Monologue 实验组 Success + LLM 仅注入 "成功检测反馈"(技能执行结果),无物体反馈 验证 "任务特定反馈" 对执行失败重试的作用
Inner Monologue 实验组 Object + Success + LLM 同时注入 "物体反馈 + 成功检测反馈",形成完整闭环 验证两类反馈的互补性,为真实场景最优配置

3. 真实厨房移动操作场景(Everyday Robots)

该场景聚焦 "长时程移动 + 操作" 与 "对抗性干扰鲁棒性",对照组与实验组针对 "反馈与 affordance 接地的结合" 设计:

组别类型 具体组别 核心差异 作用
基线对照组 SayCan 结合 LLM 与技能价值函数(affordance 接地),但无任何闭环语言反馈,计划固定 验证 "传统 LLM 规划(无反馈)" 在动态失败场景中的局限性
Inner Monologue 实验组 IM + Success 在 SayCan 基础上,注入 "成功检测反馈"(技能执行成功 / 失败) 验证 "任务特定反馈" 对重试行为的触发效果
Inner Monologue 实验组 IM + Success + Object 注入 "成功检测反馈 + 物体反馈"(人类标注的物体存在性) 验证 "场景反馈(物体)" 与 "任务反馈(成功)" 对重规划的协同作用
Inner Monologue 实验组 IM + Human Feedback 额外允许 LLM 主动向人类提问(如 "桌上有什么食物?"),注入非结构化人类反馈 验证 "主动场景反馈" 对模糊指令的澄清价值

六、实验流程

论文三个场景的实验流程遵循 "统一框架 + 场景适配" 原则,核心是 "指令输入→LLM 规划→技能执行→反馈注入→重规划" 的闭环,具体流程分场景拆解如下:

1. 通用流程框架(跨场景)

  1. 实验初始化

    • 配置机器人硬件 / 模拟环境(如 Ravens 模拟器、UR5e 机械臂、Everyday Robots 移动平台);
    • 加载预训练组件:LLM(InstructGPT-1.3B/PALM-540B)、底层技能(CLIPort / 行为克隆政策)、反馈模块(MDETR / 成功检测器);
    • 生成少样本提示词:包含 "指令 - 技能 - 反馈 - 重规划" 示例(如附录中 "积木整理" 示例),无需微调 LLM。
  2. 闭环规划执行

    • 输入人类高层指令(如 "把积木放入同色碗");
    • LLM 基于初始提示词与环境反馈(首次执行时为初始场景反馈),分解指令为技能序列;
    • 机器人执行首个技能,反馈模块采集环境状态并转化为文本(如 "拿起可乐:失败""场景:可乐、水");
    • 将反馈文本追加到 LLM 提示词,触发下一轮重规划;
    • 重复 "执行 - 反馈 - 重规划",直到 LLM 生成 "done" 指令或达到最大步骤(模拟场景 k=15,真实场景根据任务复杂度设定)。
  3. 数据记录与统计

    • 记录每次 episode 的 "任务完成状态""失败原因""执行步骤数";
    • 每个组别重复多次实验(模拟场景 50 次、真实桌面 10 次、厨房 120 次),计算平均成功率与标准差。

2. 场景适配流程

(1)模拟桌面整理场景(Ravens)
  • 环境扰动设置:向像素观测(N (0,3))、技能原语(N (0,2.5))、放置位置(N (0,0.02m))注入高斯噪声,模拟真实误差;
  • 场景反馈生成:物体列表 / 子目标完成状态直接从模拟器地面真值提取,无需人工标注;
  • 任务划分:8 个任务分为 "Seen(4 个,用于少样本提示)" 与 "Unseen(4 个,用于泛化测试)",验证 LLM 语义知识迁移能力。
(2)真实桌面整理场景(UR5e)
  • 感知噪声处理:MDETR 检测物体时,动态维护 "可见 / 消失物体列表",解决遮挡导致的漏检;
  • 政策噪声注入:向拾取位置添加平面平移噪声(堆叠任务 σ=1.5cm,分拣任务 σ=0.7cm),强制触发执行失败;
  • 力控补偿:机器人执行动作时先移动到目标上方 15cm,再缓慢下降至检测到 5N 接触力,避免深度传感器噪声影响。
(3)真实厨房移动操作场景
  • 对抗性干扰设置:人工强制技能执行失败(如故意碰掉机器人抓取的物体),验证重规划能力;
  • 反馈来源适配:物体反馈为人类结构化标注(如 "场景:可乐、苹果"),成功检测为 CLIP 微调的二分类模型(结合前见之明 / 后见之明模型抑制假阳性);
  • 任务类型覆盖:包含 "纯操作"(拿零食)、"抽屉操作"(开抽屉放可乐)、"移动 + 操作"(从柜台拿海绵清理污渍),验证长时程任务适配性。

七、评价指标

1. 核心量化指标:任务成功率

  • 定义:完成人类高层指令的 episode 数占总 episode 数的比例(%),是跨场景核心指标;
  • 场景细分
    • 模拟桌面场景:分 "Seen 任务成功率"(如 "拾取放置")与 "Unseen 任务成功率"(如 "将积木放入不同角落"),对比 LLM 泛化能力;
    • 真实桌面场景:分 "3 块积木堆叠成功率" 与 "水果 - 瓶子分拣成功率",突出真实感知误差下的鲁棒性;
    • 厨房场景:分 "无干扰成功率" 与 "对抗性干扰成功率",验证动态失败下的恢复能力(如 SayCan 在干扰下成功率接近 0%,IM 仍保持高成功率)。
  • 数据支撑
    • 模拟场景:Object+Scene 实验组在 Unseen 任务 "同色碗放积木" 中成功率 82%,CLIPort+Oracle 为 0%;
    • 真实桌面:Object+Success 实验组总成功率 90%,开环基线仅 20%;
    • 厨房场景:IM+Success+Object 在干扰下成功率显著高于 SayCan。

2. 辅助量化指标:失败原因分布

  • 定义 :统计不同组别 "失败类型占比",定位性能瓶颈,失败类型分为三类:
    1. LLM 规划失败:LLM 忽略反馈(如使用不存在的物体)、生成无效技能序列;
    2. 控制失败:底层技能执行误差(如拾取位置偏差),与反馈无关;
    3. 反馈错误:成功检测器假阳性 / 假阴性、物体识别漏检;
  • 数据支撑:厨房场景中,IM+Success+Object 组的 "LLM 规划失败占比" 比 SayCan 降低 40%,验证反馈对规划的修正作用。

八、涌现能力

1. 持续适应新指令(Continued Adaptation to New Instructions)

  • 核心表现 :任务中途人类变更指令(甚至反复修改),LLM 能实时调整计划,还会主动提问澄清模糊点
  • 例子
    • 人类先要求 "扔近柜台的零食",机器人主动问 "柜台上有什么零食?";
    • 人类突然改主意 "完成之前的任务",机器人立即调整动作序列(去桌子→拿苹果→丢垃圾...)。

2. 不可行时自提替代目标(Self-Proposing Goals under Infeasibility)

  • 核心表现 :遇到执行障碍(如 "物体太重拿不起"),LLM 利用常识推理(如 "重→找更轻的"),自主生成替代目标,而非卡壳。
  • 例子
    • 要求 "放紫积木进紫碗",但紫积木太重失败→LLM 自动推理 "找更轻的蓝积木",完成任务。

3. 多语言交互(Multilingual Interaction)

  • 核心表现 :直接解析非英语指令(如中文),无需翻译,跨语言执行任务,复用预训练 LLM 的多语言知识。
  • 例子
    • 人类用中文追加指令 "请把蓝色方块也放到蓝色的碗里",LLM 直接解析并调整计划。

4. 交互场景理解(Interactive Scene Understanding)

  • 核心表现 :记忆场景状态的时序变化(每一步动作如何改变物体位置),回答复杂场景问题(如 "紫碗里有什么?""橙碗空吗?")。
  • 例子
    • 任务完成后,人类问 "紫碗里有哪些积木?"→LLM 结合历史反馈,准确回答 "红积木和蓝积木"。

九、实验结论

1. Inner Monologue 框架显著提升具身任务的鲁棒性与泛化性

无需额外训练 LLM 或底层技能,仅通过 "闭环语言反馈" 注入,Inner Monologue 在三类场景中均显著优于基线模型:

  • 模拟桌面整理(Ravens 环境):在含高斯噪声(像素、政策、放置位置)的场景中,Inner Monologue(Object + Scene 反馈)在 Seen 任务(如 "拾取放置")的成功率达 94%,Unseen 任务(如 "将积木放入同色碗")的成功率达 82%,而 CLIPort(带终止 Oracle)在 Unseen 任务的成功率为 0%;
  • 真实桌面整理(UR5e 机械臂):面对感知噪声(遮挡、MDETR 检测误差)与政策噪声(拾取位置偏移),Inner Monologue(Object + Success 反馈)的总成功率达 90%,其中 "3 块积木堆叠" 任务成功率 100%,而开环基线(仅初始物体检测)的成功率仅 20%;
  • 真实厨房移动操作(Everyday Robots):无干扰时,Inner Monologue 在操作、抽屉、移动 + 操作三类任务中的成功率均高于 SayCan;面对对抗性干扰(强制技能失败)时,SayCan 成功率接近 0%,而 Inner Monologue(Success + Object 反馈)通过重试 / 重规划仍能高效完成任务,显著提升鲁棒性。

2. 多源语言反馈具有 "协同互补性",不同反馈解决不同痛点

论文验证了三类核心反馈(成功检测、被动场景描述、主动场景描述)的价值,且多反馈组合效果优于单一反馈:

  • 成功检测反馈:解决 "技能执行失败后是否重试" 的问题,真实桌面场景中,仅添加该反馈可使 "水果 - 瓶子分拣" 任务成功率从 20% 提升至 50%;
  • 被动场景描述反馈(如物体识别、任务进度):解决 "环境状态感知" 问题,模拟场景中,添加 "物体 + 场景反馈" 后,LLM 能跟踪已完成子目标,避免重复操作或遗漏目标;
  • 主动场景描述反馈 (如 LLM 主动询问人类):解决 "指令模糊或信息缺失" 问题,厨房场景中,面对 "拿饮料" 这类模糊指令,LLM 通过询问 "你想要水还是可乐",可精准匹配用户需求,提升任务满意度。
    同时,实验证明两类反馈组合(如 Object + Success)的效果优于单一反馈,例如真实桌面任务中,组合反馈的成功率(90%)远高于仅 Object 反馈(20%)或仅 Success 反馈(45%)。

3. Inner Monologue 涌现出超越基础规划的 "灵活推理能力"

无需专门提示或训练,仅通过闭环反馈与预训练 LLM 的语义知识,系统涌现出四类此前具身系统不具备的能力:

  • 动态适应新指令:任务中途人类变更目标(如 "先扔零食→改为完成之前的任务"),LLM 能正确解析并切换计划,甚至在人类说 "please stop" 时自动生成 "done" 指令;
  • 自提替代目标:面对不可行任务(如 "拿紫色积木放入碗",但积木过重),LLM 会主动生成替代方案(如 "找更轻的蓝色积木"),完成原本不可行的任务;
  • 多语言交互:理解非英语指令(如中文 "把蓝色方块也放到蓝色的碗里面"),并转化为英文计划执行,甚至支持符号与 emoji 的基础理解;
  • 场景交互理解:任务完成后,能基于历史反馈回答场景问题(如 "紫色碗里有什么"),验证对 "动作 - 反馈 - 场景" 的时序推理能力。这些能力源于 LLM 的语义知识与闭环反馈的结合,且无需针对特定能力设计训练流程。

4. 系统性能受 "底层技能与反馈精度" 限制,存在明确边界

论文也指出了 Inner Monologue 的局限性,为后续研究提供方向:

  • 反馈精度依赖 "Oracle":部分场景(如模拟桌面、厨房物体识别)依赖人类或模拟器提供的 "精准反馈"(如地面真值物体列表),若使用纯学习型反馈模块(如 ViLD、MDETR),虽能实现自动化,但精度会下降 ------ 例如厨房场景中,ViLD 的物体检测召回率为 72%,仍有 28% 的物体漏检;
  • 底层技能是性能瓶颈:LLM 的推理能力无法弥补底层技能的缺陷 ------ 若底层抓取政策精度不足(如无法抓取小物体),即使 LLM 生成合理计划,任务仍会失败。研究明确:LLM 推理的提升需与底层技能的优化同步进行,否则会出现 "推理正确但执行失败" 的问题。

十、创新点分析

1. 提出 "Inner Monologue" 闭环框架:模拟人类思考的具身推理范式

受人类 "内心独白"(解决任务时的实时思考过程,如 "拿钥匙→插锁→不对,换一把→成功")启发,论文设计了首个 "LLM + 闭环语言反馈" 的具身规划框架,核心创新在于:

  • 无额外训练的闭环适配:无需微调 LLM 或底层机器人技能,仅通过 "将环境反馈以自然语言形式注入 LLM 提示词",让 LLM 实时调整计划 ------ 例如技能执行失败后,反馈 "Action was not successful",LLM 会自动生成 "再次尝试该技能" 的新计划 ;
  • 反馈 - 规划的深度融合:区别于传统 "反馈仅调整底层动作" 的模式,Inner Monologue 让反馈直接参与 LLM 的高层推理,例如场景反馈 "桌上有可乐、水" 会让 LLM 在 "拿饮料" 指令下优先选择存在的物体,避免生成 "拿不存在物体" 的无效计划 。

2. 定义多源语言反馈体系:统一反馈接口与协同机制

论文首次将具身任务的环境反馈系统化为三类文本化反馈,解决 "多源反馈碎片化" 问题,且三类反馈可协同互补:

  • 成功检测反馈(任务特定):将技能执行结果转化为二元文本(如 "Success: True/False"),解决 "是否重试" 的问题 ------ 真实桌面场景中,该反馈使堆叠任务重试成功率提升 60% ;
  • 被动场景描述反馈(场景特定):自动提供结构化场景信息(如 "Visible objects: 可乐、水""Completed: 拿起可乐"),无需 LLM 主动查询,解决 "环境状态感知" 问题 ------ 模拟场景中,结合该反馈的实验组在 Unseen 任务 "同色碗放积木" 中成功率达 82% ;
  • 主动场景描述反馈(场景特定):允许 LLM 主动向人类或 VQA 模型提问(如 "你想要水还是可乐?"),获取非结构化反馈,解决 "指令模糊或信息缺失" 问题 ------ 厨房场景中,该反馈使模糊指令(如 "拿健康的食物")的完成率提升 50% 。

3. 跨场景验证框架通用性:覆盖模拟与真实具身任务

论文在三个典型具身场景中验证框架有效性,且每个场景均针对 "传统方法痛点" 设计实验,突出 Inner Monologue 的优势:

  • 模拟桌面整理(Ravens 环境):首次验证 LLM + 反馈在 "长时程泛化任务" 中的价值 ------ 对比 CLIPort(无 LLM),Inner Monologue 在 Unseen 任务中的成功率从 0% 提升至 86% ;
  • 真实桌面整理(UR5e 机械臂):解决 "真实感知噪声(遮挡、深度误差)" 问题 ------Object+Success 反馈变体的总成功率达 90%,而开环基线仅 20% ;
  • 真实厨房移动操作(Everyday Robots):解决 "长时程移动 + 操作 + 对抗性干扰" 问题 ------ 面对强制技能失败时,SayCan 成功率接近 0%,而 Inner Monologue(Success+Object 反馈)仍能通过重试 / 重规划完成任务,成功率显著高于基线 。

4. 发现 LLM 具身推理的 "涌现能力":超越基础规划的灵活适配性

无需专门提示或训练,Inner Monologue 基于 LLM 的语义知识与闭环反馈,涌现出四类此前具身系统不具备的能力,拓展了 LLM 在具身任务中的应用边界:

  • 动态适应新指令:任务中途变更目标(如 "先扔零食→改为完成之前的任务"),LLM 能正确解析并切换计划,甚至在人类说 "please stop" 时自动生成 "done" 指令 ;
  • 自提替代目标:面对不可行任务(如 "拿紫色积木放入碗",但积木过重),LLM 会主动生成替代方案(如 "找更轻的蓝色积木") ;
  • 多语言交互:理解非英语指令(如中文 "把蓝色方块也放到蓝色的碗里面"),并转化为英文计划执行,甚至支持符号 /emoji 理解 ;
  • 场景交互理解:任务完成后,能基于历史反馈回答场景问题(如 "紫色碗里有什么"),验证对 "动作 - 反馈 - 场景" 的时序推理能力 。

十一、相关工作

1. 任务与运动规划(Task and Motion Planning, TAMP)

(1)传统技术路径与核心研究

该领域聚焦 "高层离散任务规划" 与 "底层连续运动规划" 的协同,传统方法分为两类:

  • 优化与符号推理:早期研究依赖手工设计的符号规则或数学优化实现规划,例如 Kaelbling & Lozano-Pérez 2013 提出的 "信念空间内集成任务与运动规划",通过符号逻辑描述任务目标(如 "将积木放入碗"),再通过运动规划生成机械臂轨迹;Sacerdoti 1975 的 "计划与行为结构"、Nau et al. 1999 的 SHOP 规划器均为符号推理的经典工作,核心是通过预定义规则拆解任务。
  • 机器学习驱动的改进:近年研究引入学习型表征或任务原语提升灵活性,例如 Eysenbach et al. 2019 的 "回放缓冲区搜索"、Xu et al. 2018 的 "神经任务编程",通过学习任务的结构化表征适配长时程任务;部分工作进一步结合语言实现 grounding,如 Tellex et al. 2011 的 "自然语言指令驱动导航与操作",通过语言将抽象指令映射为具体动作。
(2)现有局限与论文定位

传统 TAMP 方法虽能处理 "任务 - 运动协同",但缺乏LLM 的通用语义知识------ 例如无法理解 "拿健康的饮料" 这类模糊指令,且需针对特定任务设计符号规则或训练表征,跨场景迁移成本高。论文的创新在于:不依赖手工符号或任务特定训练,直接复用预训练 LLM 的语义知识与预训练底层技能,通过反馈实现动态规划,弥补 TAMP 在 "语义推理" 与 "灵活性" 上的不足。

2. 基于语言模型的任务规划(Task Planning with Language Models)

(1)核心研究与技术特点

该领域是近年热点,核心是利用 LLM 的文本生成与推理能力拆解高层指令,代表性工作分为两类:

  • 零样本计划生成:Huang et al. 2022提出 "语言模型作为零样本规划器",通过 GPT-3/Codex 生成动作序列,再用 Sentence-RoBERTa 模型将步骤映射为机器人可执行动作;其核心优势是无需任务训练,但局限是 "开环生成计划",假设步骤必定成功,无反馈调整机制。
  • Affordance 接地的计划优化:SayCan(Ahn et al. 2022)通过 FLAN 模型计算动作概率,再与技能价值函数(反映动作可行性)相乘,实现 "计划 - 可行性" 的结合;但同样缺乏闭环反馈,面对技能执行失败或环境变化时无法重规划 ------ 这也是论文选择 SayCan 作为厨房场景基线的核心原因。
(2)现有局限与论文定位

这类方法虽实现了 "LLM 与机器人动作的连接",但关键缺陷是单向规划、无反馈闭环------ 无法应对具身环境的动态性(如物体遮挡、技能失败)。论文的 Inner Monologue 框架正是针对这一局限,通过 "反馈注入 LLM 提示词" 构建闭环,让 LLM 在每一步计划中结合环境状态调整,而非生成固定序列。

3. 机器人中视觉 - 语言 - 控制的融合(Fusing Vision, Language, and Control in Robotics)

(1)核心研究与技术路径

该领域聚焦 "多模态信息(视觉、语言)" 与 "机器人控制" 的协同,关键工作分为三类:

  • 视觉 - 语言预训练模型的应用:CLIP(Radford et al. 2021)通过 "图像 - 文本对比学习" 实现跨模态 grounding,被广泛用于零样本机器人任务,如 CLIPort(Shridhar et al. 2022,)将 CLIP 与 Transporter Nets 结合,实现视觉引导的拾取 - 放置;但这类方法缺乏 LLM 的长时程推理能力,无法处理 "分拣水果与瓶子" 这类多步骤任务。
  • 多基础模型的组合:Socratic Models(Zeng et al. 2022)将 GPT-3(语言)、ViLD(开放词汇检测)、语言条件政策结合,以语言为通用接口实现多模态推理;但其局限是 "无闭环反馈",计划生成后无法根据执行结果调整,且仅在模拟场景验证。
  • 语言驱动的分层控制:部分工作通过语言定义任务层级,如 Jiang et al. 2019 的 "语言作为分层强化学习的抽象",用语言划分任务子目标;但需针对任务微调强化学习策略,无法复用预训练模型。
(2)现有局限与论文定位

这类方法虽解决了 "多模态 grounding",但缺乏LLM 与反馈的深度融合------ 要么无反馈(如 Socratic Models),要么反馈仅用于调整底层动作(如 CLIPort),未参与高层规划。论文的创新在于:将视觉反馈(如物体识别、成功检测)转化为语言文本,直接注入 LLM 的推理过程,实现 "视觉感知 - 语言推理 - 控制执行" 的闭环。

相关推荐
@小匠3 小时前
Read Frog:一款开源的 AI 驱动浏览器语言学习扩展
人工智能·学习
山间小僧5 小时前
「AI学习笔记」RNN
机器学习·aigc·ai编程
网教盟人才服务平台6 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
芯智工坊7 小时前
第15章 Mosquitto生产环境部署实践
人工智能·mqtt·开源
菜菜艾7 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
TDengine (老段)7 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
小真zzz7 小时前
搜极星:第三方多平台中立GEO洞察专家全面解析
人工智能·搜索引擎·seo·geo·中立·第三方平台
GreenTea8 小时前
从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码
前端·人工智能·后端
火山引擎开发者社区8 小时前
秒级创建实例,火山引擎 Milvus Serverless 让 AI Agent 开发更快更省
人工智能