VIMA:多模态提示的通用机器人操纵

机器人任务的表述有三种形式,分别是模仿one-shot演示、跟随语言指令、以及实现视觉目标。然而,这三种方式处理的任务不同,且模型也不同。基于提示的学习在自然语言处理领域展现了通用能力,单个模型可以处理各种各样的任务。VIMA是一个机器人领域的通用智能体,基于多模态提示学习的transformer架构。VIMA这篇论文的主要贡献有:

多模态提示范式:把机器人操纵任务转化为序列建模问题。

大规模benchmark:系统性评估智能体的扩展性和泛化性。

多模态提示机器人智能体:拥有处理多任务和零样本泛化的能力。

图1 任务说明的多模态提示

多模态提示

作者们认为各种各样的任务说明范式可以被多模态提示初始化。确切的说,多模态提示被定义为任意交叉的文本与图片的有序序列,可见图1所示。其中,元素。

主要考虑的任务有6中,分别是

简单的物品操纵

实现视觉目标

新颖概念理解

one-shot视频模仿

满足视觉约束

视觉推理

VIMA-Bench

由于只有特定任务的benchmarks,所以提出了VIMA-Bench。该Benchmark的形成是由收集对象与文本对形成提示对,从而扩展Ravens机器人仿真器得到。同时,基于特权信息获得仿真环境中专家演示数据。在仿真环境中,智能体的观测空间由前向RGB图片和自顶向下视角的图片构成;动作空间由关节位置构成;奖励函数为0-1奖励,只有完成任务才有奖励。

如图2所示,作者们设计了4级评估协议,系统探索了智能体的泛化能力。

图2 评估协议

VIMA

为了学习一个高效的多任务机器人策略,设计了一个多任务编码-解码架构和以对象为中心的智能体,可见图3所示。

图3 VIMA架构

确切的说,策略由多模态提示和历史为输入。对于多模态提示,利用预训练模型T5进行编码。对于解码,利用多模态提示编码于交互数据和观测之间的交叉注意力生成动作序列。VIMA通过从有界box坐标和裁剪RGB patches计算tokens的方式得到对象为中心的表示。

Tokenization:三种类型的数据需要tokenization,分别为文本、单个对象的图片、桌面场景图片。对于文本,利用预训练T5的tokenizer和词embedding获得词tokens。对于全景图片,首先利用微调后的Masked R-CNN抽取单个对象,然后对每个对象的有界box和裁剪图片进行编码,分别使用了有界box编码器和ViT。对于单个对象的图片,利用ViT得到编码。最后,tokens以特定准则,通过预训练T5编码器编码提示。同时,为了使模型能够容纳新的模态,在非文本tokens与T5之间增加了MLP。

相关推荐
鲁邦通物联网8 小时前
开发者实践:机器人梯控的 EC6200 功能与多品牌兼容解耦
机器人·机器人梯控·agv梯控·非侵入式采集
月下倩影时11 小时前
ROS1基础入门:从零搭建机器人通信系统(Python/C++)
c++·python·机器人
心无旁骛~16 小时前
ROS2 Action 通信详解:从自定义消息到 Server/Client 实现(附 MoveIt! 联动示例)
机器人
脑极体1 天前
从电网守护到全运接力,5G-A机器人的破壁之旅
5g·机器人
鲁邦通物联网1 天前
开发者实践:电梯梯控的 非侵入式 与安全模块的电气解耦
机器人·机器人梯控·agv梯控·非侵入式采集·电梯梯控
xwz小王子1 天前
PerAct2:机器人双臂操作任务的基准测试和学习
学习·机器人
机器人行业研究员1 天前
当机器人学会了“知轻重”:六维力传感器和关节力传感器如何重塑餐饮体验
机器人·人机交互·六维力传感器·关节力传感器
yongshao81 天前
KUKA机械臂使用EthernetKRL配置与C#上位机实现TCP通讯
tcp/ip·机器人·c#·信息与通信
马拉AI1 天前
ICLR 2026 前瞻 | 邱锡鹏团队再发力:ROBOOMNI让机器人会“察言观色“,主动帮你解决需求!
机器人·邱锡鹏
星马梦缘1 天前
Whole-Body Control——双足机器人全身控制技术 论文阅读笔记
人工智能·机器人·控制·wbc·雅可比·wbosc·机器人全身控制