【论文阅读】RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

快速了解部分

基础信息（英文）：

1.题目: RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

2.时间: 2024.02

3.机构: The University of Hong Kong, OpenGVLab, Shanghai AI Laboratory, ETH Zurich, Shanghai Jiao Tong University, The Chinese University of Hong Kong, Tsinghua University, UC Berkeley

4.3个英文关键词: Robotic Behavior Synthesis, Multimodal Code Generation, Tree-of-Thought

1句话通俗总结本文干了什么事情

本文提出了一种名为 RoboCodeX 的模型，它像一个"机器人翻译官"，把人类的指令和视觉信息翻译成具体的代码，让机器人能看懂环境并做出复杂的动作。

研究痛点：现有研究不足 / 要解决的具体问题

之前的机器人系统很难在理解高层语义的同时，生成适应不同机器人和新环境的底层精确动作；单纯的语言模型缺乏视觉基础，而视觉模型又难以进行通用的逻辑推理和跨平台部署。

核心方法：关键技术、模型或研究设计（简要）

使用多模态大模型（MLLM）将视觉和语言输入转化为代码；采用"思维树"结构分解任务；通过专门的代码生成数据集进行预训练和微调。

深入了解部分

作者想要表达什么

作者想表达的是，代码可以作为连接高级认知（视觉和语言）与低级物理控制（机器人动作）的完美桥梁。通过让模型生成代码而不是直接输出动作，可以实现跨平台的通用性和在复杂物理环境中的精确操作。

相比前人创新在哪里

代码作为策略：不同于以往直接输出动作坐标或简单的自然语言计划，它输出的是可执行的 Python 代码，包含逻辑判断和 API 调用。
结构化思维树：将任务分解为以物体为中心的单元（Object-centric units），并预测物理属性（如抓取偏好、关节约束）。
多尺度视觉适配器：改进了视觉编码器，使其能更好地理解物体的细节和空间关系。

解决方法/算法的通俗解释

想象你教一个新手修车，你不仅告诉他"拧螺丝"，还给他写了一份包含具体步骤、注意事项（比如"螺丝在左边"）和工具使用方法的说明书。

RoboCodeX 就是这个写说明书的专家：

看懂场面：它先看几眼摄像头传来的画面，搞清楚桌子上有啥、东西在哪。
拆解任务：把"把果子放进抽屉"拆成"找到果子 -> 想好怎么抓（不捏坏） -> 走过去 -> 抓起来 -> 找到抽屉 -> 想好怎么放 -> 放进去"。
写代码：它把这些步骤写成机器人能看懂的代码，代码里调用了"抓取"、"移动"等现成的工具函数。

解决方法的具体做法

输入处理：融合多视角的 RGBD 图像生成 3D 空间表征（TSDF），并输入多模态大模型。
思维树分解：模型将高层指令分解为多个物体中心的子任务单元。
代码生成 ：对于每个子任务，模型生成包含以下信息的代码：
- 目标姿态：物体应该被移动到哪里。
- 物理属性：比如抽屉的滑轨方向、门的旋转轴。
- 偏好预测：比如抓杯子应该抓把手而不是杯口。
- 轨迹规划：调用路径规划算法生成避障的运动路径。
执行与微调：生成的代码在 ROS 环境中运行，并通过迭代自我更新的方法生成高质量数据进行训练。

基于前人的哪些方法

BLIP-2 架构：作为视觉-语言模型的基础框架，使用 Q-Former 进行模态连接。
LLaMA-13B：作为底层的语言模型进行微调。
AnyGrasp：用于生成候选的抓取姿态。
GAMMA：用于预测铰接物体（如抽屉、门）的物理关节参数。
Open3D：用于平面检测。

实验设置、数据、评估方式、结论

环境：使用 Gazebo 进行仿真（Franka 机械臂），并在真实世界的 Franka Emika Panda 和 UR5 机械臂上测试。
任务：包括 42 类物体的抓取放置、开关抽屉/柜门、多阶段任务（如把水果放进抽屉）。
对比基线：GPT-4V, GPT-4, GPT-3.5, L3MVN, Pixel-Nav 等。
结果：在仿真和真实世界中均取得了 SOTA（最先进）成绩，例如在长程任务中比 GPT-4V 提升了 17% 的成功率，并且能零样本迁移到不同的机器人手臂上。
消融实验：证明了"偏好预测"和"视觉适配器"对成功率有显著贡献。

提到的同类工作

RT-1 / RT-2：机器人 Transformer 模型。
Code as Policies：将代码作为策略的研究。
Do as I can：将语言模型与机器人能力结合的工作。
Voyager：使用大模型进行开放式探索的代理。
LLaVA / MiniGPT-4：其他的多模态大模型。

和本文相关性最高的3个文献

Code as Policies (Liang et al., 2023)：因为本文直接继承了"用代码控制机器人"的核心思想，并在此基础上增加了视觉基础。
AnyGrasp (Fang et al., 2023)：本文依赖该模型生成高质量的抓取候选，是其物理交互能力的关键组件。
GAMMA (Yu et al., 2023b)：本文利用该模型预测铰接物体的物理参数，使其能处理开关门等复杂任务。