快速了解部分
基础信息(英文):
1.题目: RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis
2.时间: 2024.02
3.机构: The University of Hong Kong, OpenGVLab, Shanghai AI Laboratory, ETH Zurich, Shanghai Jiao Tong University, The Chinese University of Hong Kong, Tsinghua University, UC Berkeley
4.3个英文关键词: Robotic Behavior Synthesis, Multimodal Code Generation, Tree-of-Thought
1句话通俗总结本文干了什么事情
本文提出了一种名为 RoboCodeX 的模型,它像一个"机器人翻译官",把人类的指令和视觉信息翻译成具体的代码,让机器人能看懂环境并做出复杂的动作。
研究痛点:现有研究不足 / 要解决的具体问题
之前的机器人系统很难在理解高层语义的同时,生成适应不同机器人和新环境的底层精确动作;单纯的语言模型缺乏视觉基础,而视觉模型又难以进行通用的逻辑推理和跨平台部署。
核心方法:关键技术、模型或研究设计(简要)
使用多模态大模型(MLLM)将视觉和语言输入转化为代码;采用"思维树"结构分解任务;通过专门的代码生成数据集进行预训练和微调。
深入了解部分
作者想要表达什么
作者想表达的是,代码可以作为连接高级认知(视觉和语言)与低级物理控制(机器人动作)的完美桥梁。通过让模型生成代码而不是直接输出动作,可以实现跨平台的通用性和在复杂物理环境中的精确操作。
相比前人创新在哪里
- 代码作为策略:不同于以往直接输出动作坐标或简单的自然语言计划,它输出的是可执行的 Python 代码,包含逻辑判断和 API 调用。
- 结构化思维树:将任务分解为以物体为中心的单元(Object-centric units),并预测物理属性(如抓取偏好、关节约束)。
- 多尺度视觉适配器:改进了视觉编码器,使其能更好地理解物体的细节和空间关系。
解决方法/算法的通俗解释
想象你教一个新手修车,你不仅告诉他"拧螺丝",还给他写了一份包含具体步骤、注意事项(比如"螺丝在左边")和工具使用方法的说明书。
RoboCodeX 就是这个写说明书的专家:
- 看懂场面:它先看几眼摄像头传来的画面,搞清楚桌子上有啥、东西在哪。
- 拆解任务:把"把果子放进抽屉"拆成"找到果子 -> 想好怎么抓(不捏坏) -> 走过去 -> 抓起来 -> 找到抽屉 -> 想好怎么放 -> 放进去"。
- 写代码:它把这些步骤写成机器人能看懂的代码,代码里调用了"抓取"、"移动"等现成的工具函数。
解决方法的具体做法
- 输入处理:融合多视角的 RGBD 图像生成 3D 空间表征(TSDF),并输入多模态大模型。
- 思维树分解:模型将高层指令分解为多个物体中心的子任务单元。
- 代码生成 :对于每个子任务,模型生成包含以下信息的代码:
- 目标姿态:物体应该被移动到哪里。
- 物理属性:比如抽屉的滑轨方向、门的旋转轴。
- 偏好预测:比如抓杯子应该抓把手而不是杯口。
- 轨迹规划:调用路径规划算法生成避障的运动路径。
- 执行与微调:生成的代码在 ROS 环境中运行,并通过迭代自我更新的方法生成高质量数据进行训练。
基于前人的哪些方法
- BLIP-2 架构:作为视觉-语言模型的基础框架,使用 Q-Former 进行模态连接。
- LLaMA-13B:作为底层的语言模型进行微调。
- AnyGrasp:用于生成候选的抓取姿态。
- GAMMA:用于预测铰接物体(如抽屉、门)的物理关节参数。
- Open3D:用于平面检测。
实验设置、数据、评估方式、结论
- 环境:使用 Gazebo 进行仿真(Franka 机械臂),并在真实世界的 Franka Emika Panda 和 UR5 机械臂上测试。
- 任务:包括 42 类物体的抓取放置、开关抽屉/柜门、多阶段任务(如把水果放进抽屉)。
- 对比基线:GPT-4V, GPT-4, GPT-3.5, L3MVN, Pixel-Nav 等。
- 结果:在仿真和真实世界中均取得了 SOTA(最先进)成绩,例如在长程任务中比 GPT-4V 提升了 17% 的成功率,并且能零样本迁移到不同的机器人手臂上。
- 消融实验:证明了"偏好预测"和"视觉适配器"对成功率有显著贡献。
提到的同类工作
- RT-1 / RT-2:机器人 Transformer 模型。
- Code as Policies:将代码作为策略的研究。
- Do as I can:将语言模型与机器人能力结合的工作。
- Voyager:使用大模型进行开放式探索的代理。
- LLaVA / MiniGPT-4:其他的多模态大模型。
和本文相关性最高的3个文献
- Code as Policies (Liang et al., 2023):因为本文直接继承了"用代码控制机器人"的核心思想,并在此基础上增加了视觉基础。
- AnyGrasp (Fang et al., 2023):本文依赖该模型生成高质量的抓取候选,是其物理交互能力的关键组件。
- GAMMA (Yu et al., 2023b):本文利用该模型预测铰接物体的物理参数,使其能处理开关门等复杂任务。