VLA系列RT-1: Robotics Transformer for Real-World Control 论文阅读和理解

一、TL；DR

提出新结构：提出Robotics Transformer，一个能够消化海量多样性的机器人数据的高容量的模型结构
各种消融实验验证：在不同的数据规模、模型规模和数据多样性作为函数的泛化能力完成验证
取得什么效果：以97%的成功率执行超过700个训练指令，在新任务、干扰物和背景上的泛化分别比下一个最佳基线好25%、36%和18%
我觉得最重要的：设计了多个消融实验和测试条件，验证VLA对任务执行的成功是有绝对贡献和成功率提升

二、整体介绍

验证上述问题的难点：

组建高质量的规模化数据集
设计合适的模型

如何解决：

17个月内使用13台机器人收集的数据集，包含∼130,000个情节和超过700个任务
提出RT-1(Robotics Transformer 1)，将高维输入和输出（包括摄像头图像、指令和电机命令）编码成紧凑token，高效推理-实时运行

贡献点：

提出RT-1模型
基于真实世界机器人任务数据集上完成验证
RT-1可以以97%的成功率执行超过700个训练指令，并且在新任务、干扰物和背景上的泛化分别比下一个最佳基线好25%、36%和18%。

三、模型介绍

3.1 模型结构

RT-1接收图像和自然语言指令，并输出离散化的token+action。
35M参数+3HZ执行
EfficientNet + TokenLearner + Transformer

这里有一个值得思考的地方：text token其实根据token-prune相关的paper中会发现占比是很重要的，也就是当遇到这种类似场景时，text-token比视觉token更重要，会不会带来vla泛化性能有问题使得模型更关注指令而非视觉？

3.2 数据集规模和验证

在大规模、真实世界中训练（130,000个演示）和评估（3,000个真实世界试验）

3.3 前置知识

看一下就行了没什么大用

机器人目标是学习一个策略 π，最大化在指令、初始状态 x0 和转移动态的分布上的期望平均奖励。

首先将输入 i，{xj} t j=0 映射到一个序列 {ξh} H h=0，将动作输出 at 映射到一个序列 {yk} K k=0，然后使用Transformer学习映射 {ξh} H h=0 → {yk} K k=0 来参数化 π。

四、系统概述

系统目的：

构建和展示一个通用的机器人学习系统，能够吸收大量数据并有效泛化。

如何做：

使用来自Everyday Robots的移动操纵器，它具有7个自由度的机械臂、一个两指夹持器和一个移动底座，如图2

使用了三个基于厨房的环境：

两个真实的办公室厨房和一个模拟这些真实厨房的训练环境。训练环境如图2（a）所示，由部分柜台构成，用于大规模数据收集。
两个真实环境如图2（b、c）所示，与训练环境具有相似的柜台，但在照明、背景和完整的厨房几何结构方面有所变化（例如，可能存在柜子而不是抽屉，或者可能可见水槽）

训练数据：

包括人类提供的演示，并用机器人刚执行的指令的文本描述注释每个 episode。这些指令通常包含一个动词和一个或多个描述目标对象的名词。
为了将这些指令分组在一起，将它们分为多个技能（例如，"pick"、"open"或"place upright"等动词）和对象（例如，"coke can"、"apple"或"drawer"等名词）。
数据规模：包含超过13万个单独的演示，涵盖了超过700个不同的任务指令，使用了大量不同的物体（见图2（f））
收集策略和细节在后文给出

五、RT-1: ROBOTICS TRANSFORMER

5.1 模型架构

指令被转换为一个USE-embedding，并通过FiLM层对预训练的EfficientNet进行条件处理（与各层的视觉特征进行融合）。生成的视觉语言tokrn经过TokenLearner减少后，再送到一个仅包含解码器的Transformer中，该Transformer输出token化的动作。如下图所示：

指令和图像token如何使用： RT-1模型接受分辨率为300×300的6张图像作为输入，并从最后的卷积层输出形状为9×9×512的空间特征图。然后输出特征图展平为81个视觉token，并将它们传递到网络的后续层。（其实和早期的groundingDino类似，在文本特征和图像特征早期做大量的融合）

遇到的问题：直接在预训练网络的内部插入FiLM层会破坏中间特征，使预训练失效；
怎么解决：生成FiLM仿射变换的密集层（fc和hC）的权重初始化为零，从而使FiLM层最初充当恒等式并保留预训练权重的功能（类似于LORA初始化）

TokenLearner： TokenLearner是一个逐元素注意力模块，学习将大量token映射到数量较少的token（本质上就是一个token-prune模块，视频内容理解的VLM大部分都会包含这个模块）。

TokenLearner的加入将经过预训练FiLM-EfficientNet层的81个视觉token子采样为仅有8个最终token，然后传递给Transformer层。

Transformer： 每个图像的这8个token与历史上的其他图像连接在一起，形成48个总token（带有附加的位置编码），馈送到RT-1的Transformer骨干。Transformer是一个仅包含解码器的序列模型，具有8个自注意力层和总共19M参数，输出动作token。

动作token化： 为了对动作进行token化，RT-1中的每个动作维度都被离散为256个bins，动作维度包括：

七个变量用于手臂移动（x、y、z、横滚、俯仰、偏航、夹爪的张开）
三个变量用于底座移动（x、y、偏航），
以及一个离散变量，用于在三种模式之间切换：控制手臂、底座或终止剧集。
对于每个变量，我们将目标映射到256个bins中，其中bin在每个变量的边界内均匀分布。

**损失函数：**使用标准的分类交叉熵损失和在先前基于Transformer的控制器中使用的causal掩码。

5.2 数据

目的：收集一个大型、多样化的机器人轨迹数据集，包括多个任务、对象和环境，让模型具备泛化能力+高性能

怎么做：主要数据集包括约130k个机器人演示，使用13个机器人的车队在17个月内收集。在一系列办公厨房段中进行了这次大规模的数据收集，

技能和指令分类：

六、Experiments <我认为最重要的一节>

6.1 实验回答的问题

实验回答下述6个问题：

RT-1能否学会执行大量指令，并在零样本情况下推广到新任务、新物体和新环境？
1. 是的，可以
通过整合异构数据源，如模拟数据或不同机器人的数据，我们能否进一步推动生成的模型
1. 是的，可以
不同方法在长时间跨度的机器人场景中的推广能力如何
1. RT-1可以规划50个步骤的长时序任务
随着数据量和数据多样性的变化，各种推广指标如何变化？
1. 多样性 > 数量
在模型设计中，哪些是重要且实际的决策，它们如何影响性能和推广能力？
1. 见6.7节图（略）

6.2 测试场景/指令方面/实验维度

在三类场景中测试：

本次实验全面测评模型在训练任务、全新未知任务、陌生环境适配、长时序串联任务中的综合表现。具体环境在两处真实办公厨房，：
1. 一处参照真实厨房搭建的训练仿真环境,训练环境如图 2 (a) 所示，仅包含局部操作台；
2. 两处真实厨房（图 2b、2c）虽操作台布局与训练环境相近，但光照条件、背景环境、整体厨房结构均存在差异（例如储物柜替代抽屉、视野内可见水槽等）。

已知指令的性能：

从训练集中抽取的指令上在此评估中测试了200多项任务：

36项用于拾取物体
35项用于敲击物体，
35项用于将物体竖立放置，
48项用于移动物体，
18项用于打开和关闭各种抽屉，
36项用于从抽屉中拾取和放置物品。

未知指令的性能：

测试了21个新颖的、未见的指令。
指令分布在技能和对象之间。这确保了训练集中至少有一些每个对象和技能的实例，但它们将以新颖的方式组合。
1. 例如，如果"拾取苹果"被保留，那么还有其他包含苹果的训练指令。所有未见指令的列表可以在附录D.1中找到。

稳健性：

进行了30个用于干扰物稳健性的真实任务和22个用于背景稳健性的任务。
通过在新的厨房中评估背景稳健性（其具有不同的照明和背景视觉效果）以及使用不同的柜台表面（例如，有图案的桌布）。稳健性评估场景的示例配置如图4所示。

环境鲁棒性：

鲁棒性实验包含两大维度：

干扰物鲁棒性测试 30 项、
背景环境鲁棒性测试 22 项。
背景鲁棒性通过切换全新厨房场景、更换操作台台面（如花纹桌布）、调整光照实现；鲁棒性实验场景示例见图 4。

长时序任务场景：

本文进一步测试模型在真实长时序复杂任务中的泛化能力，此类任务需要串联多步操作动作。该评估旨在融合全新任务、陌生物体、未知环境等多重泛化挑战，贴近真实落地需求。实验在两处真实厨房中设置 15 条长时序指令，单条指令需完成约 10 步连续操作，单步操作复杂度与训练指令保持一致。长时序任务的分步拆解依托 SayCan 系统（安等人，2022）自动完成（例如指令 "清理桌面所有杂物" 将被拆解为多步基础动作），具体拆解逻辑详见 6.4 节与附录 D.3。

6.3 RT-1与竞品在各个维度对标

本节围绕三大核心维度，对比 RT-1 与现有模型的综合性能、泛化能力及环境鲁棒性，对照组包含 Gato、原版 BC-Z、大参数量版本BC-Z XL。

实验结果如表 2 所示：在所有测评维度中，RT-1 性能均大幅领先基线模型。

已见任务：RT-1 对 200 余条训练指令的执行成功率达97%，较 BC-Z 高出 25%，较 Gato 高出 32%；
未知任务：全新指令泛化成功率达76%，高出次优基线模型 24%。

6.4 拆解 RT-1 各核心模块对性能的贡献度

在环境抗干扰能力方面：

RT-1 表现优异：干扰物场景任务成功率 83%，背景陌生场景成功率 59%，分别高出次优模型 36%、18%。整体而言，RT-1 不仅基础执行能力更强，同时具备极强的跨场景泛化与环境鲁棒性。图 5 展示了 RT-1 在不同技能、环境、物体交互中的运行轨迹案例；

在真实复杂指令泛化能力：

为验证模型能否适配真实厨房的复杂落地场景，本文叠加全新任务组合、密集干扰物、陌生环境等多重分布偏移，设计连贯式任务流程。真实厨房实操任务包括：零食抽屉补给、倾倒调料瓶归位、闭合未关抽屉、橙子 + 纸巾简易餐食准备、全域搜寻收纳墨镜与章鱼玩偶等，完整指令清单见附录 D.1。

真实厨房与训练环境差异极大，本文按泛化难度划分三个等级：

L1 级：仅操作台布局、光照条件变化；
L2 级：在 L1 基础上，新增未知干扰物体；
L3 级：在 L2 基础上，叠加全新任务逻辑、陌生交互物体、特殊场景位姿（如水槽周边操作）。

三级难度分别对应零食补给、餐食准备、物品搜寻三大真实任务，场景对照见图 4 末行；不同难度的运行轨迹案例见附录图 11。

表 3 统计了不同泛化等级下的任务成功率：RT-1 在全难度等级中鲁棒性最优。Gato 在简单 L1 级场景泛化表现尚可，但复杂场景下性能断崖式下跌；BC-Z 及 BC-Z XL 在 L2 级表现中等、L3 级优于 Gato，但整体泛化能力仍远不及 RT-1。

6.5 融合异构数据（仿真数据、跨机器人数据）能否进一步提升模型上限？

本节探究 RT-1 对异构异源数据的融合能力，验证模型能否吸收差异极大的多源数据、实现性能升级，且不损害原有任务的执行精度。本文设计两组对照实验：

融合真实机器人数据与仿真虚拟数据训练并测试；
融合多型号机器人采集的大规模异构数据集训练。

6.5.1 仿真数据融合能力

实验结论：融合仿真数据后，RT-1 原有真实任务性能无衰减；仅仿真场景出现的物体与任务，成功率从 23% 飙升至 87%，逼近真实任务精度，

表 4 对比了 RT-1 与基线模型融合真实 + 仿真数据的效果。实验固定全部真实演示数据，额外补充仿真场景数据集，包含现实中从未出现的虚拟物体。测评分为三类场景：

已学技能 + 真实物体：训练包含对应真实指令样本；
已学技能 + 仿真物体：训练仅包含该指令的仿真样本；
全新技能 + 仿真物体：仅训练过仿真物体基础交互，无对应组合指令样本。

所有测试均在真实物理环境中完成，聚焦拾取、位移两类核心基础动作。

体现极强的虚实域迁移能力；全新未知指令的执行成功率从 7% 提升至 33%------ 即便物体从未在现实中出现、指令完全陌生，模型仍可实现有效泛化。综上，RT-1 可高效吸收跨领域异构数据。

6.5.2 跨机器人数据融合能力

实验结果如表 5 所示：融合双机器人数据后的 RT-1，通用教室场景任务性能仅下降 2%，原有能力基本保留；在箱体抓取专项任务中，跨数据训练模型成功率达 39%，远高于仅用原生数据训练的 22%，性能提升近一倍。

为进一步挖掘数据融合上限，本文融合两类完全异构的机器人数据集：库卡 IIWA 机械臂数据、前文实验所用日常机器人移动机械臂数据。库卡数据集源自 QT-Opt 研究（卡拉什尼科夫等人，2018），包含 20.9 万条抓取交互轨迹，核心场景为箱体无序物体抓取（库卡机械臂实操案例见表 5）。

实验设置两类测评标准：

通用教室场景测评：沿用前文标准测试任务；
箱体抓取专项测评：复刻库卡机械臂的箱体无序抓取场景（见图 6）。

两类数据集存在本质差异：机器人外形结构、动作空间、环境视觉特征、物理动力学参数完全不同；且 QT-Opt 数据由强化学习智能体自主采集，而本文原始数据集均为人类演示样本，动作分布差异显著。

实验结论如下所示：

补充对照实验：仅用库卡抓取数据训练的模型，移植至日常机器人后，箱体抓取任务成功率为 0%，印证了跨机器人硬件形态直接迁移行为逻辑的局限性。而多源数据混合训练，可让 RT-1 自主推理适配新机器人的动作逻辑。

6.5 各类方法在长时序机器人场景中的泛化表现如何？

实验结论：SayCan-RT1 可规划并执行最高达 50 个步骤的超长时序任务。

本组实验旨在验证：本文方法是否具备充足泛化能力，可应用于真实厨房的长时序复杂任务场景。为解答该问题，我们在两处真实厨房环境中，基于 SayCan 框架（安等人，2022）分别部署 RT-1 与多种基线模型开展测试。

SayCan 的核心逻辑是拼接多条底层基础指令，从而完成高层复杂指令。因此，可行的高层指令数量会随操作技能种类呈组合式增长，能够充分体现 RT-1 的技能广度优势（SayCan 算法详情参见安等人 2022 年论文）。长时序任务的成功率会随步骤长度呈指数级下降，因此基础操作技能的高执行成功率至关重要。此外，移动操作任务同时包含导航与物体操控，策略对机器人底座位置变化的鲁棒性也极为关键。更多细节详见附录 D.3。

实验结果如表 6 所示（对应指令详见附录表 12）。除原生 SayCan 外，其余所有方法的规划成功率均为 87%；其中 RT-1 表现最优，在一号厨房的任务执行成功率达 67%。

二号厨房的泛化难度显著更高，原因是机器人训练教室场景完全仿照一号厨房搭建（两处厨房环境对比见图 2）。受高泛化难度影响：搭载 Gato 的 SayCan 无法完成任何长时序任务，搭载 BC-Z 的 SayCan 成功率仅为 13%。原版 SayCan 相关研究并未在全新厨房环境中开展测评。

值得注意的是，从一号厨房迁移至二号厨房时，本文方法的操控性能未出现明显下降 。补充视频中可以看到：RT-1 能够操作二号厨房中从未见过的全新抽屉；结合 SayCan 架构，SayCan-RT1 可规划并执行最高达 50 个步骤的超长时序任务。

6.6 泛化指标如何随数据规模与数据多样性变化？

实验结论：数据多样性的重要性远高于数据总量。

本节最后一项研究问题，聚焦分析 RT-1 在不同数据特征下的性能缩放规律。

表 7 展示了在逐步缩减数据量占比 与任务多样性占比的条件下，RT-1 的基础性能、泛化能力与鲁棒性变化。为独立区分数据规模与数据多样性两大变量，本研究采用两组裁剪方案：

控制任务多样性不变、缩减数据量：剔除各任务下冗余样本，限制单任务样本上限，分别压缩至原数据总量的 51%、37%、22.5%；
控制数据总量不变、缩减任务多样性：剔除样本量最少的任务，保留整体 97% 的数据，但仅保留 75% 的任务类型，构建低多样性数据集。

实验结果表明：随着数据量缩减，模型整体性能平稳下降，泛化能力衰减幅度更为剧烈 ；而压缩任务多样性时，模型性能下滑速度显著加快，泛化指标受冲击尤为严重。事实上，仅剔除 25% 的任务种类、保留 97% 原始数据量，模型泛化水平的下降程度，与直接削减 49% 整体数据量的效果基本持平。

综上，本文核心结论：数据多样性的重要性远高于数据总量。

6.7 模型消融实验

七、结论、局限性与未来工作

RT-1是一种能够高效吸纳海量数据、并可随数据规模与多样性实现性能扩容的机器人学习算法
该模型仍存在诸多局限性：
1. 第一，本方法属于模仿学习范畴，天然受限于该类算法的固有缺陷，例如模型性能上限无法超越人类演示者；
2. 第二，模型对新指令的泛化，仅局限于已有概念的重组组合，尚无法自主生成从未见过的全新运动行为；
3. 第三，本文验证的操作任务虽覆盖范围广，但灵巧操作场景不足。后续我们将持续扩充可执行指令与泛化场景，弥补这一短板。
未来研究方向:
1. 研发简易数据采集与模型提示调控方案，让非专业人员也能快速训练机器人，从而加速机器人技能的拓展迭代