ALRM：用于机器人操纵的智体大语言模型

26年1月来自技术创新研究所（阿布扎比，阿联酋）和爱尔兰都柏林城市大学的论文"ALRM: Agentic LLM for Robotic Manipulation"。

近期，大语言模型（LLMs）已赋能智体框架，使其展现出先进的推理与规划能力。然而，将LLMs整合至机器人控制流程中仍面临两方面的局限：(1) 此前基于LLMs的方法往往缺乏模块化的智体式执行机制，从而限制了其以闭环方式进行规划、对执行结果进行反思及修正动作的能力；(2) 现有的机器人操作任务基准测试主要侧重于底层控制，未能系统地评估多步推理能力及指令语言的多样性。鉴于此，本文提出一种名为"用于机器人操作的智体LLM"（ALRM）框架，这是一个由LLM驱动的机器人操作智体框架。ALRM通过一种ReAct风格的推理循环，将策略生成与智体执行紧密结合，并支持两种互补的工作模式：即用于直接生成可执行控制代码的"代码即策略"（CaP）模式，以及用于迭代规划与基于工具执行动作的"工具即策略"（TaP）模式。为了实现系统化的评估，还引入一套全新的仿真基准测试集；该基准集涵盖跨多个环境的56项任务，并包含语言表述形式各异的指令。针对十种不同LLM进行的实验结果表明，ALRM提供一种可扩展、可解释且模块化的方法，成功架起自然语言推理与可靠机器人执行之间的桥梁。具体结果显示，在CaP模式下，Claude-4.1-Opus 是表现最佳的闭源模型，而 Falcon-H1-7B 则是表现最佳的开源模型。

如图1展示所提出的基于大语言模型（LLM）的智体架构，旨在解决高层级的机械臂操作任务。该架构主要包含三个模块：(1) 任务规划智体，(2) 任务执行智体，以及 (3) API服务器。

任务规划智体通过"思考---行动---观察"的迭代循环，逐步生成任务规划；并依据与环境及机器人的交互情况，动态地创建子任务。任务执行智体将这些高层级的自然语言子任务转化为具体的动作指令，并将其发送至API服务器；随后，API服务器在仿真环境或实体机器人上执行这些动作。动作执行完毕后，任务执行智体对执行结果进行归纳总结，并以"观察结果"的形式反馈给规划智体。这一反馈过程提供必要的上下文信息，使规划智体能够基于执行结果进行推理，进而生成后续的动作指令。上述交互流程将持续进行，直至用户最初设定的任务圆满完成，或达到预设的最大执行步数上限。

为了评估提出的方法，并考察不同大语言模型（LLMs）在高级机器人操作任务中的表现，设计一个基准数据集，该数据集结合受控环境、结构化任务以及语言表述多样化的指令。

该基准数据集围绕三个模拟环境构建，每个环境均包含一个机器人机械臂和一组物体。在每个环境中，定义三个标准任务，均涉及多物体的抓取与放置操作。为了测试 LLMs 对语言变化的鲁棒性，每个标准任务均被改写（paraphrase）五次，涵盖六种不同的语言类别。总体而言，该基准数据集共包含 3 个环境 × 3 个任务 × 6 条指令 = 54 个任务。针对每个任务，提供"黄金标准"（ground-truth）代码及工具调用序列，并已在 Gazebo 模拟环境中进行验证。该基准数据集现已公开发布，旨在为后续关于机器人操作规划与执行的研究提供评估支持。

如图 2 展示开发的三个模拟环境，每个环境均配置了不同的可操作物体。具体而言，每个环境包含以下物体：

厨房用具：勺子、锅铲、可乐罐和篮子。
盒子类：纸板箱、木箱、金属箱和容器。
水果类：草莓、李子、柠檬、桃子、碗和垃圾桶。

每个环境都对 ALRM 提出挑战，要求其在不同的语义域中对物体的属性和位置进行推理。

设计的评估流程旨在从三个维度对性能进行横向比较：(1) 任务执行模式（TaP 与 CaP）；(2) 所采用的 LLMs；以及 (3) 指令改写类别。

采用一个轻量级的模拟环境，以实现高效的实验运行。该环境提供用于控制机器人运动与感知的 API 接口，这些接口返回的是占位符姿态数据，旨在模拟真实机器人或全功能模拟器的输出结果。只要机器人运动指令中的参数格式正确（例如，以字典形式指定位置与姿态），该次运动即被视为成功。这种设置允许快速评估所生成的代码及工具调用序列，且不会损害结果的有效性；因为主要目标是评估所生成动作的质量，而非机器人运动学或动力学的细节表现。为了确保结果的真实性，所有的"黄金标准"代码及工具调用序列均已在 Gazebo 模拟器中，利用 Interbotix wx250s 机械臂 $20$ 进行验证，从而确认该框架所生成的动作在物理真实的模拟环境中是可执行的。