机器人具身智能汇总

一、X-VLA

X-VLA 是一个专为机器人控制设计的「视觉-语言-动作」模型

二、 Open Flamingo

Open Flamingo 是一个更通用的「视觉-语言」模型,主要用于理解和对话

特性维度 X-VLA (面向机器人) Open Flamingo (面向多模态理解)
核心任务 将视觉和语言指令映射为物理动作 完成视觉-语言间的理解和对话
输出形式 机器人控制指令 (如关节角度、末端位姿) 文本 (回答、描述等)
动作模块 具备生成式动作解码器 (如基于flow-matching) 不包含动作输出模块
设计重心 跨本体泛化、长时序任务执行、动作的精确性与鲁棒性 强大的视觉-语言表征能力、上下文学习 (In-Context Learning)
典型应用 机器人自主叠衣、抓取、桌面操作等 图像描述、视觉问答、多模态对话等

三、CLIPort

CLIPort 是由华盛顿大学和 Nvidia 团队提出的端到端语言条件化模仿学习框架 ,专为机器人操纵任务设计,核心是结合CLIP 的语义理解能力("什么")TransporterNets 的空间精度("哪里"),实现对多种桌面操纵任务的泛化求解。

核心是双流架构(语义流 + 空间流)

  • 语义流(Semantic Stream):基于预训练的 CLIP 模型,处理 RGB 图像以提取高层语义特征,理解 "要操作什么物体"(如识别 "蓝色盒子""棕色容器" 的语义概念)。同时融入语言指令的编码,让机器人理解任务的抽象目标(如 "将蓝黄盒子放入棕色盒")。
  • 空间流(Spatial Stream):基于 TransporterNets 处理 RGB-D 图像,捕捉物体的空间位置、形状和深度关系,解决 "在哪里操作" 的问题(如精确定位拾取和放置的坐标)。
  • 融合机制 :通过跳连接、逐元乘积等操作实现语义与空间信息的互补,最终输出可操作性映射(Affordance),直接指导机器人的 "拾取(Pick)" 和 "放置(Place)" 动作。

图1-1 CLIPort端到端双流结构

图1-2 CLIPort实物实验结果

四、Robotic Transformer 2(RT-2)

RT-2 (Robotics Transformer 2)是 Google DeepMind 团队发布的一个非常著名的 VLA (vision-language-action)模型,也是 RT-1 的续集。它动作、图片和编码成和语言一样的离散 tokens,用端到端的方式来训练 Transformer 结构,训练数据使用机器人采样的轨迹数据和互联网上的 vision-language 数据。主要特色是直接输出低阶控制动作和能产生涌现的能力。

在 VLM 基模型的基础上来训练,考虑两种自家大模型 PaLI-XPaLM-E。 RT-2 不是一个从零开始设计的机器人模型。它是一种高效的"迁移学习",将两个在通用视觉-语言任务上已变得无比强大的现有模型(PaLI-X 和 PaLM-E)作为基础,通过用机器人动作数据对它们进行联合微调,将它们丰富的视觉和语义知识"蒸馏"到一个能直接输出机器人控制指令的、具备涌现能力的机器人模型中。

接下来就是给控制动作编码,动作有 7 维。对于每一维,本文把它们离散化之后,编码成 256 个 tokens 中的一个。PaLI-X 本身有一些代表 <1000 整数的 tokens,文章正好就用这些个 tokens;PaLM-E 没有这样能直接映射的tokens,所以文章就分配使用最不常用的 256 个 tokens 了。这样,机器人控制序列也可以像 vision-language 一样,并编码成一串 tokens 了。

图1-3 RT-2 模型概述

图1-4 RT-2 泛化的程度评估

相关推荐
想唱rap1 小时前
Linux下进程的状态和优先级
linux·运维·服务器·开发语言·数据结构·算法
普通网友2 小时前
单元测试在C++项目中的实践
开发语言·c++·算法
從南走到北2 小时前
JAVA同城服务场馆预约门店预约健身房瑜伽馆预约系统支持H5小程序APP源码
java·开发语言·小程序
爱学的小码3 小时前
JavaEE初阶——多线程3(案例)
java·开发语言·单例模式·java-ee
csbysj20203 小时前
Ruby 面向对象编程深入解析
开发语言
voidmort3 小时前
web3.py 简介:面向 Python 开发者的以太坊
开发语言·python·web3.py
Teacher.chenchong3 小时前
R语言实现物种分布预测与生态位分析:多元算法实现物种气候生态位动态分析与分布预测,涵盖数据清洗、模型评价到论文写作全流程
开发语言·算法·r语言
烤麻辣烫3 小时前
23种设计模式(新手)-7迪米特原则 合成复用原则
java·开发语言·学习·设计模式·intellij-idea
菠菠萝宝4 小时前
【Java手搓RAGFlow】-1- 环境准备
java·开发语言·人工智能·llm·openai·rag