机器人具身智能汇总

一、X-VLA

X-VLA 是一个专为机器人控制设计的「视觉-语言-动作」模型

二、 Open Flamingo

Open Flamingo 是一个更通用的「视觉-语言」模型,主要用于理解和对话

特性维度 X-VLA (面向机器人) Open Flamingo (面向多模态理解)
核心任务 将视觉和语言指令映射为物理动作 完成视觉-语言间的理解和对话
输出形式 机器人控制指令 (如关节角度、末端位姿) 文本 (回答、描述等)
动作模块 具备生成式动作解码器 (如基于flow-matching) 不包含动作输出模块
设计重心 跨本体泛化、长时序任务执行、动作的精确性与鲁棒性 强大的视觉-语言表征能力、上下文学习 (In-Context Learning)
典型应用 机器人自主叠衣、抓取、桌面操作等 图像描述、视觉问答、多模态对话等

三、CLIPort

CLIPort 是由华盛顿大学和 Nvidia 团队提出的端到端语言条件化模仿学习框架 ,专为机器人操纵任务设计,核心是结合CLIP 的语义理解能力("什么")TransporterNets 的空间精度("哪里"),实现对多种桌面操纵任务的泛化求解。

核心是双流架构(语义流 + 空间流)

  • 语义流(Semantic Stream):基于预训练的 CLIP 模型,处理 RGB 图像以提取高层语义特征,理解 "要操作什么物体"(如识别 "蓝色盒子""棕色容器" 的语义概念)。同时融入语言指令的编码,让机器人理解任务的抽象目标(如 "将蓝黄盒子放入棕色盒")。
  • 空间流(Spatial Stream):基于 TransporterNets 处理 RGB-D 图像,捕捉物体的空间位置、形状和深度关系,解决 "在哪里操作" 的问题(如精确定位拾取和放置的坐标)。
  • 融合机制 :通过跳连接、逐元乘积等操作实现语义与空间信息的互补,最终输出可操作性映射(Affordance),直接指导机器人的 "拾取(Pick)" 和 "放置(Place)" 动作。

图1-1 CLIPort端到端双流结构

图1-2 CLIPort实物实验结果

四、Robotic Transformer 2(RT-2)

RT-2 (Robotics Transformer 2)是 Google DeepMind 团队发布的一个非常著名的 VLA (vision-language-action)模型,也是 RT-1 的续集。它动作、图片和编码成和语言一样的离散 tokens,用端到端的方式来训练 Transformer 结构,训练数据使用机器人采样的轨迹数据和互联网上的 vision-language 数据。主要特色是直接输出低阶控制动作和能产生涌现的能力。

在 VLM 基模型的基础上来训练,考虑两种自家大模型 PaLI-XPaLM-E。 RT-2 不是一个从零开始设计的机器人模型。它是一种高效的"迁移学习",将两个在通用视觉-语言任务上已变得无比强大的现有模型(PaLI-X 和 PaLM-E)作为基础,通过用机器人动作数据对它们进行联合微调,将它们丰富的视觉和语义知识"蒸馏"到一个能直接输出机器人控制指令的、具备涌现能力的机器人模型中。

接下来就是给控制动作编码,动作有 7 维。对于每一维,本文把它们离散化之后,编码成 256 个 tokens 中的一个。PaLI-X 本身有一些代表 <1000 整数的 tokens,文章正好就用这些个 tokens;PaLM-E 没有这样能直接映射的tokens,所以文章就分配使用最不常用的 256 个 tokens 了。这样,机器人控制序列也可以像 vision-language 一样,并编码成一串 tokens 了。

图1-3 RT-2 模型概述

图1-4 RT-2 泛化的程度评估

相关推荐
小浣熊熊熊熊熊熊熊丶2 小时前
《Effective Java》第25条:限制源文件为单个顶级类
java·开发语言·effective java
啃火龙果的兔子2 小时前
JDK 安装配置
java·开发语言
星哥说事2 小时前
应用程序监控:Java 与 Web 应用的实践
java·开发语言
等....2 小时前
Miniconda使用
开发语言·python
zfj3212 小时前
go为什么设计成源码依赖,而不是二进制依赖
开发语言·后端·golang
醇氧2 小时前
org.jetbrains.annotations的@Nullable 学习
java·开发语言·学习·intellij-idea
Java&Develop3 小时前
Aes加密 GCM java
java·开发语言·python
weixin_462446233 小时前
使用 Go 实现 SSE 流式推送 + 打字机效果(模拟 Coze Chat)
开发语言·后端·golang
JIngJaneIL3 小时前
基于springboot + vue古城景区管理系统(源码+数据库+文档)
java·开发语言·前端·数据库·vue.js·spring boot·后端
敲敲了个代码3 小时前
隐式类型转换:哈基米 == 猫 ? true :false
开发语言·前端·javascript·学习·面试·web