ALRM:用于机器人操纵的智体大语言模型

26年1月来自技术创新研究所(阿布扎比,阿联酋)和爱尔兰都柏林城市大学的论文"ALRM: Agentic LLM for Robotic Manipulation"。

近期,大语言模型(LLMs)已赋能智体框架,使其展现出先进的推理与规划能力。然而,将LLMs整合至机器人控制流程中仍面临两方面的局限:(1) 此前基于LLMs的方法往往缺乏模块化的智体式执行机制,从而限制了其以闭环方式进行规划、对执行结果进行反思及修正动作的能力;(2) 现有的机器人操作任务基准测试主要侧重于底层控制,未能系统地评估多步推理能力及指令语言的多样性。鉴于此,本文提出一种名为"用于机器人操作的智体LLM"(ALRM)框架,这是一个由LLM驱动的机器人操作智体框架。ALRM通过一种ReAct风格的推理循环,将策略生成与智体执行紧密结合,并支持两种互补的工作模式:即用于直接生成可执行控制代码的"代码即策略"(CaP)模式,以及用于迭代规划与基于工具执行动作的"工具即策略"(TaP)模式。为了实现系统化的评估,还引入一套全新的仿真基准测试集;该基准集涵盖跨多个环境的56项任务,并包含语言表述形式各异的指令。针对十种不同LLM进行的实验结果表明,ALRM提供一种可扩展、可解释且模块化的方法,成功架起自然语言推理与可靠机器人执行之间的桥梁。具体结果显示,在CaP模式下,Claude-4.1-Opus 是表现最佳的闭源模型,而 Falcon-H1-7B 则是表现最佳的开源模型。


如图1展示所提出的基于大语言模型(LLM)的智体架构,旨在解决高层级的机械臂操作任务。该架构主要包含三个模块:(1) 任务规划智体,(2) 任务执行智体,以及 (3) API服务器。

任务规划智体通过"思考---行动---观察"的迭代循环,逐步生成任务规划;并依据与环境及机器人的交互情况,动态地创建子任务。任务执行智体将这些高层级的自然语言子任务转化为具体的动作指令,并将其发送至API服务器;随后,API服务器在仿真环境或实体机器人上执行这些动作。动作执行完毕后,任务执行智体对执行结果进行归纳总结,并以"观察结果"的形式反馈给规划智体。这一反馈过程提供必要的上下文信息,使规划智体能够基于执行结果进行推理,进而生成后续的动作指令。上述交互流程将持续进行,直至用户最初设定的任务圆满完成,或达到预设的最大执行步数上限。

为了评估提出的方法,并考察不同大语言模型(LLMs)在高级机器人操作任务中的表现,设计一个基准数据集,该数据集结合受控环境、结构化任务以及语言表述多样化的指令。

该基准数据集围绕三个模拟环境构建,每个环境均包含一个机器人机械臂和一组物体。在每个环境中,定义三个标准任务,均涉及多物体的抓取与放置操作。为了测试 LLMs 对语言变化的鲁棒性,每个标准任务均被改写(paraphrase)五次,涵盖六种不同的语言类别。总体而言,该基准数据集共包含 3 个环境 × 3 个任务 × 6 条指令 = 54 个任务。针对每个任务,提供"黄金标准"(ground-truth)代码及工具调用序列,并已在 Gazebo 模拟环境中进行验证。该基准数据集现已公开发布,旨在为后续关于机器人操作规划与执行的研究提供评估支持。

如图 2 展示开发的三个模拟环境,每个环境均配置了不同的可操作物体。具体而言,每个环境包含以下物体:

  1. 厨房用具:勺子、锅铲、可乐罐和篮子。
  2. 盒子类:纸板箱、木箱、金属箱和容器。
  3. 水果类:草莓、李子、柠檬、桃子、碗和垃圾桶。

每个环境都对 ALRM 提出挑战,要求其在不同的语义域中对物体的属性和位置进行推理。

设计的评估流程旨在从三个维度对性能进行横向比较:(1) 任务执行模式(TaP 与 CaP);(2) 所采用的 LLMs;以及 (3) 指令改写类别。

采用一个轻量级的模拟环境,以实现高效的实验运行。该环境提供用于控制机器人运动与感知的 API 接口,这些接口返回的是占位符姿态数据,旨在模拟真实机器人或全功能模拟器的输出结果。只要机器人运动指令中的参数格式正确(例如,以字典形式指定位置与姿态),该次运动即被视为成功。这种设置允许快速评估所生成的代码及工具调用序列,且不会损害结果的有效性;因为主要目标是评估所生成动作的质量,而非机器人运动学或动力学的细节表现。为了确保结果的真实性,所有的"黄金标准"代码及工具调用序列均已在 Gazebo 模拟器中,利用 Interbotix wx250s 机械臂 [20] 进行验证,从而确认该框架所生成的动作在物理真实的模拟环境中是可执行的。

相关推荐
多年小白11 小时前
科创50暴涨+5.88%创历史新高
人工智能·ai·金融·区块链·能源
武子康11 小时前
调查研究-144 ChatGPT Atlas浏览器深度分析:AI工作台与Chrome分工协作
人工智能·chrome·经验分享·程序人生·ai·chatgpt·职场和发展
AI职业加油站11 小时前
从政策到实战:人工智能算法工程师证书的完整价值分析
人工智能·python·学习·算法·职场和发展
m沐沐11 小时前
【计算机视觉】OpenCV 实战:视频椒盐噪声生成与消除 + 图像边界填充详解
人工智能·opencv·计算机视觉·pycharm·音视频
风雨中的小七11 小时前
和AI一起搞事情#6. 如何实现图片文字元素编辑?
人工智能·llm
圣殿骑士-Khtangc11 小时前
深入拆解 Transformer 注意力机制:从 MHA 到 MLA,大模型性能跃迁的底层密码
人工智能
ai产品老杨11 小时前
架构师视点:基于 Docker 与边缘计算的 AI 视频管理平台,如何构建 GB28181/RTSP 统一接入与源码交付生态?
人工智能·docker·边缘计算
学编程的小程11 小时前
Mac mini跑OpenClaw:低功耗家庭AI服务器搭建与飞书接入实战
服务器·人工智能·macos
薛会11 小时前
Cosmos Policy:用视频生成模型的“肌肉记忆“教会机器人操控
人工智能