机器人具身智能汇总

一、X-VLA

X-VLA 是一个专为机器人控制设计的「视觉-语言-动作」模型

二、 Open Flamingo

Open Flamingo 是一个更通用的「视觉-语言」模型，主要用于理解和对话

特性维度	X-VLA (面向机器人)	Open Flamingo (面向多模态理解)
核心任务	将视觉和语言指令映射为物理动作	完成视觉-语言间的理解和对话
输出形式	机器人控制指令 (如关节角度、末端位姿)	文本 (回答、描述等)
动作模块	具备生成式动作解码器 (如基于flow-matching)	不包含动作输出模块
设计重心	跨本体泛化、长时序任务执行、动作的精确性与鲁棒性	强大的视觉-语言表征能力、上下文学习 (In-Context Learning)
典型应用	机器人自主叠衣、抓取、桌面操作等	图像描述、视觉问答、多模态对话等

三、CLIPort

CLIPort 是由华盛顿大学和 Nvidia 团队提出的端到端语言条件化模仿学习框架 ，专为机器人操纵任务设计，核心是结合CLIP 的语义理解能力（"什么"）与TransporterNets 的空间精度（"哪里"），实现对多种桌面操纵任务的泛化求解。

核心是双流架构（语义流 + 空间流）

语义流（Semantic Stream）：基于预训练的 CLIP 模型，处理 RGB 图像以提取高层语义特征，理解 "要操作什么物体"（如识别 "蓝色盒子""棕色容器" 的语义概念）。同时融入语言指令的编码，让机器人理解任务的抽象目标（如 "将蓝黄盒子放入棕色盒"）。
空间流（Spatial Stream）：基于 TransporterNets 处理 RGB-D 图像，捕捉物体的空间位置、形状和深度关系，解决 "在哪里操作" 的问题（如精确定位拾取和放置的坐标）。
融合机制 ：通过跳连接、逐元乘积等操作实现语义与空间信息的互补，最终输出可操作性映射（Affordance），直接指导机器人的 "拾取（Pick）" 和 "放置（Place）" 动作。

图1-1 CLIPort端到端双流结构

图1-2 CLIPort实物实验结果

RT-2 （Robotics Transformer 2）是 Google DeepMind 团队发布的一个非常著名的 VLA （vision-language-action）模型，也是 RT-1 的续集。它动作、图片和编码成和语言一样的离散 tokens，用端到端的方式来训练 Transformer 结构，训练数据使用机器人采样的轨迹数据和互联网上的 vision-language 数据。主要特色是直接输出低阶控制动作和能产生涌现的能力。

在 VLM 基模型的基础上来训练，考虑两种自家大模型 PaLI-X 和 PaLM-E。 RT-2 不是一个从零开始设计的机器人模型。它是一种高效的"迁移学习"，将两个在通用视觉-语言任务上已变得无比强大的现有模型（PaLI-X 和 PaLM-E）作为基础，通过用机器人动作数据对它们进行联合微调，将它们丰富的视觉和语义知识"蒸馏"到一个能直接输出机器人控制指令的、具备涌现能力的机器人模型中。

接下来就是给控制动作编码，动作有 7 维。对于每一维，本文把它们离散化之后，编码成 256 个 tokens 中的一个。PaLI-X 本身有一些代表 <1000 整数的 tokens，文章正好就用这些个 tokens；PaLM-E 没有这样能直接映射的tokens，所以文章就分配使用最不常用的 256 个 tokens 了。这样，机器人控制序列也可以像 vision-language 一样，并编码成一串 tokens 了。

图1-3 RT-2 模型概述

图1-4 RT-2 泛化的程度评估

机器人具身智能汇总

一、X-VLA

二、 Open Flamingo

三、CLIPort

四、Robotic Transformer 2（RT-2）