机器人具身智能汇总

一、X-VLA

X-VLA 是一个专为机器人控制设计的「视觉-语言-动作」模型

二、 Open Flamingo

Open Flamingo 是一个更通用的「视觉-语言」模型,主要用于理解和对话

特性维度 X-VLA (面向机器人) Open Flamingo (面向多模态理解)
核心任务 将视觉和语言指令映射为物理动作 完成视觉-语言间的理解和对话
输出形式 机器人控制指令 (如关节角度、末端位姿) 文本 (回答、描述等)
动作模块 具备生成式动作解码器 (如基于flow-matching) 不包含动作输出模块
设计重心 跨本体泛化、长时序任务执行、动作的精确性与鲁棒性 强大的视觉-语言表征能力、上下文学习 (In-Context Learning)
典型应用 机器人自主叠衣、抓取、桌面操作等 图像描述、视觉问答、多模态对话等

三、CLIPort

CLIPort 是由华盛顿大学和 Nvidia 团队提出的端到端语言条件化模仿学习框架 ,专为机器人操纵任务设计,核心是结合CLIP 的语义理解能力("什么")TransporterNets 的空间精度("哪里"),实现对多种桌面操纵任务的泛化求解。

核心是双流架构(语义流 + 空间流)

  • 语义流(Semantic Stream):基于预训练的 CLIP 模型,处理 RGB 图像以提取高层语义特征,理解 "要操作什么物体"(如识别 "蓝色盒子""棕色容器" 的语义概念)。同时融入语言指令的编码,让机器人理解任务的抽象目标(如 "将蓝黄盒子放入棕色盒")。
  • 空间流(Spatial Stream):基于 TransporterNets 处理 RGB-D 图像,捕捉物体的空间位置、形状和深度关系,解决 "在哪里操作" 的问题(如精确定位拾取和放置的坐标)。
  • 融合机制 :通过跳连接、逐元乘积等操作实现语义与空间信息的互补,最终输出可操作性映射(Affordance),直接指导机器人的 "拾取(Pick)" 和 "放置(Place)" 动作。

图1-1 CLIPort端到端双流结构

图1-2 CLIPort实物实验结果

四、Robotic Transformer 2(RT-2)

RT-2 (Robotics Transformer 2)是 Google DeepMind 团队发布的一个非常著名的 VLA (vision-language-action)模型,也是 RT-1 的续集。它动作、图片和编码成和语言一样的离散 tokens,用端到端的方式来训练 Transformer 结构,训练数据使用机器人采样的轨迹数据和互联网上的 vision-language 数据。主要特色是直接输出低阶控制动作和能产生涌现的能力。

在 VLM 基模型的基础上来训练,考虑两种自家大模型 PaLI-XPaLM-E。 RT-2 不是一个从零开始设计的机器人模型。它是一种高效的"迁移学习",将两个在通用视觉-语言任务上已变得无比强大的现有模型(PaLI-X 和 PaLM-E)作为基础,通过用机器人动作数据对它们进行联合微调,将它们丰富的视觉和语义知识"蒸馏"到一个能直接输出机器人控制指令的、具备涌现能力的机器人模型中。

接下来就是给控制动作编码,动作有 7 维。对于每一维,本文把它们离散化之后,编码成 256 个 tokens 中的一个。PaLI-X 本身有一些代表 <1000 整数的 tokens,文章正好就用这些个 tokens;PaLM-E 没有这样能直接映射的tokens,所以文章就分配使用最不常用的 256 个 tokens 了。这样,机器人控制序列也可以像 vision-language 一样,并编码成一串 tokens 了。

图1-3 RT-2 模型概述

图1-4 RT-2 泛化的程度评估

相关推荐
island131412 分钟前
CANN GE(图引擎)深度解析:计算图优化管线、内存静态规划与异构任务的 Stream 调度机制
开发语言·人工智能·深度学习·神经网络
坚持就完事了16 分钟前
Java中的集合
java·开发语言
魔芋红茶20 分钟前
Python 项目版本控制
开发语言·python
云小逸35 分钟前
【nmap源码解析】Nmap OS识别核心模块深度解析:osscan2.cc源码剖析(1)
开发语言·网络·学习·nmap
冰暮流星36 分钟前
javascript之二重循环练习
开发语言·javascript·数据库
风指引着方向37 分钟前
自定义算子开发入门:基于 CANN op-plugin 的扩展实践
开发语言
Fairy要carry41 分钟前
面试-GRPO强化学习
开发语言·人工智能
Liekkas Kono1 小时前
RapidOCR Python 贡献指南
开发语言·python·rapidocr
张张努力变强1 小时前
C++ STL string 类:常用接口 + auto + 范围 for全攻略,字符串操作效率拉满
开发语言·数据结构·c++·算法·stl
xyq20241 小时前
Matplotlib 绘图线
开发语言