RoboBERT：减少大规模数据与训练成本，端到端多模态机器人操作模型（西湖大学最新）

写在前面&出发点

具身智能融合多种模态，使智能体能够同时理解图像、语言和动作。然而，现有模型通常依赖额外数据集或大量预训练来最大化性能提升，这耗费了大量训练时间和高昂的硬件成本。为解决这一问题，我们提出RoboBERT，这是一种新型的端到端机器人操作模型，并结合了独特的训练策略。该模型利用基于卷积神经网络（CNN）的扩散策略，通过分离不同模态的训练过程，提高并稳定了模型的有效性。同时，我们强调数据增强的重要性，验证了多种技术能显著提升模型性能。与依赖额外数据或大型基础模型的模型不同，RoboBERT仅使用带有语言标注的专家演示数据，在保持相对较小模型规模的情况下，仍取得了极具竞争力的成功率。RoboBERT在CALVIN基准测试的"ABCD→D"任务中，平均长度达到4.52，创造了新的最先进（SOTA）记录。此外，在真实机器人上进行测试时，该模型也展现出卓越性能，比使用相同数据训练的其他方法成功率更高。我们认为，RoboBERT的这些概念和方法具有广泛的通用性和兼容性，为轻量级多模态机器人模型的发展做出了重要贡献。代码：https://github.com/PeterWangsicheng/RoboBERT。

领域介绍

随着多模态语言模型的发展，现有的人工智能不仅能够理解人类语言、感知周围环境，还能生成动作序列与环境进行交互，形成具身智能。现有研究依赖大型预训练模型或额外数据集，旨在利用大量数据使智能体在不同场景中实现充分泛化，并且确实取得了显著进展。

原文链接：RoboBERT：减少大规模数据与训练成本，端到端多模态机器人操作模型（西湖大学最新）

例如，GR-1使用大规模视频语言任务的数据集预训练一个GPT风格的自回归模型，然后在机器人任务上进行微调，在基准测试中取得了最先进的结果。RoboFlamingo以大型视觉语言模型为基础模型，然后修改任务头使其能够预测动作序列，与从头开始训练相比，显著提高了策略的性能。RT-2通过为动作类型添加额外标记对大型语言模型进行改进，然后在语言、图像和动作任务上进行联合训练，使模型不仅能够完成任务，还展现出推理能力。Unified-IO2作为一个大型多任务模型，在语言理解、图像生成和音乐创作等方面进行综合训练，赋予了它一定程度的动作生成能力。

然而目前，受动作模态数据集稀缺和机器人异构性的限制，按照类似大型语言模型的训练方式，在互联网上收集与语言数据集规模相同的动作数据用于高强度预训练极为困难。即使能够收集到大量数据，在这些数据上进行训练也会消耗大量计算资源和时间。因此，如何通过出色的网络设计和充分利用有限的数据集尽可能提高策略性能至关重要，这不仅可以减轻数据收集的压力，还能降低训练成本。

为实现这一目标，我们提出了一种新的训练范式，包括一个轻量级多模态融合网络，该网络可以理解各种形式的观测数据，并使用扩散模型生成动作。此外，这里高度强调数据增强在端到端训练中的显著作用。在不依赖预训练和额外数据的情况下，该模型的性能仍优于以往研究。贡献如下：

设计了一种适用于动作、图像和语言等多种模态的轻量级端到端机器人操作模型。它不依赖大型预训练模型或额外数据集，大大降低了训练成本。

在训练过程中，特别强调加噪、仿射变换、混合（mixup）等数据增强方法，在不依赖额外数据的情况下，性能优于其他类似模型。

除了在具有挑战性的Calvin虚拟环境中进行测试，并与使用语言标记轨迹的方法相比取得最先进的成绩外，该模型的有效性还在真实机器人上得到了验证，成功完成了各种任务。

相关工作

1）端到端机器人模型

端到端机器人控制指的是无需进行显式的姿态估计、抓取规划和动作规划，直接通过从机器人的观测中学习来预测动作的过程。由于不受特定特征提取流程的限制，从理论上讲，该模型可以充分利用原始观测数据，并在广泛的任务中进行学习，展现出良好的适应性和泛化能力。

MVP方法采用MAE编码器作为骨干网络，驱动下游的强化学习过程，其可行性已在实际场景中得到验证。SHF模型使用自注意力结构融合多模态输入，直接为策略学习提供图像、触觉和声音等输入。Cliport利用Clip模型对图像观测和语言指令进行编码，并结合一种新颖的双流架构，使智能体能够遵循自然语言指令进行拾取和放置操作。RoboBert是一种典型的端到端机器人模型，这使其能够充分利用输入并执行各种技能。

2）模仿学习

模仿学习是将人类专家的演示数据作为样本，其输入是与任务相关的指标，包括目标位置、距离，甚至是图像观测，输出则是人类动作。通过监督学习，模型旨在在相似输入下紧密模仿人类专家的输出。模仿学习最简单的形式是行为克隆（BC），它直接建立从观测到动作的映射。随后，研究人员提出了基于能量建模的隐式行为克隆（IBC），以及基于向量场的扩散策略等模型。与另一种机器人策略学习方法强化学习相比，模仿学习无需与环境进行长期交互和试错，但依赖大量高质量的专家演示数据。它还面临分布转移的问题，即动作偏差会导致观测偏差，最终使观测结果偏离数据集，从而导致性能下降。RoboBert将使用扩散策略来模仿专家动作，以实现预期性能。

3）多模态融合：投影、查询、微调

人类接收多种形式的感官输入，不同模态之间存在显著差异。最近的多模态语言模型展示了Transformer在模态融合方面的出色性能。综合研究发现，当前大型模型主要涉及三种模态融合方法：基于投影的方法、基于查询的方法和微调方法。以主流模型为例，基于投影的工作包括LLAVA，它将图像模态线性映射为标记，以便嵌入到大型语言模型中。BILP-2和Flamingo采用基于查询的模态融合方法，使用感知重采样器和交叉注意力机制来融合模态。微调方法则使用适配器等轻量级结构，并结合图像编码信息引入可训练的提示，使其他标记对齐以理解图像，如LLaMA Adapter。RoboBERT将采用来自openFlamingo的模态融合方法，通过交叉注意力和感知重采样器融合视觉、语言和动作。

RoboBERT方法

1）RoboBert

这里将介绍我们要解决的问题以及用于解决该问题的模型RoboBert，之所以这样命名，是因为模型使用Bert编码器来处理语言。我们还将描述针对该模型特点的训练方法。

2）问题定义

我们实现了一个端到端、基于语言条件的机器人操作智能体。该智能体模型M应能够接受自然语言输入

和原始观测序列

，并融合这两种不同模态的输入。模型通过指定的训练方法调整其内部参数θ，使其输出动作

尽可能接近预期动作

。用公式表示为：

为解决这类问题，主流模型通常将该过程分为三个步骤。第一步是特征提取，对原始输入进行编码，记为

。第二步是观测编码融合，记为

。第三步是策略生成，记为

，它通过分析第二步的融合结果，提供相应动作的概率分布。因此，模型可以表示为：

每个模块都执行特定功能，且相互连接，它们的性能相互影响。设计和训练这些模块以保持最佳性能是本研究的重点。

3）模型结构

概述

与其他方法类似，该模型由三个部分组成：特征提取器

、模态融合器

和动作头

。其内部实现如图1所示，后续部分将详细解释。

特征提取器

由于模型只需理解简单的语言指令，无需进行复杂的任务推理，我们选择了相对轻量级的语言模型BERT，它常用于同义句推理。BERT将灵活的字符串形式的指令输入转换为标记矩阵。为了使BERT的语言编码更好地适应后续模型阶段，我们添加了一个 "语言连接器"，这是一个基于感知重采样器的微调头，用于进一步处理语言信息并提取与任务相关的特征。

对于图像模态输入，我们采用CLIP模型的视觉Transformer（ViT）（Dosovitskiy等人，2020），它通过文本 - 图像对比方法进行训练，实现了自然语言和图像观测的对齐。预训练的CLIP将为RoboBERT的训练提供良好的初始化。

模态融合器

经过特征提取器预处理后，各种模态输入被转换为相应的标记。然后，模型需要整合来自不同来源和格式的数据。它采用了OpenFlamingo多模态大模型也使用的无因果掩码的Transformer解码器结构，其中语言作为查询，观测作为键和值。通过多层交叉注意力和自注意力机制实现融合。融合结果是一组潜在语义标记，然后通过最大池化操作压缩在一起，以表示当前的多模态观测。

动作头

我们为动作头采用基于CNN的扩散模型。这个扩散策略模型将噪声向量和来自模态融合模块

最近时间步的潜在特征作为输入，它们分别用于生成种子和提供去噪条件。在

产生的多模态观测表示的约束下，动作头将纯噪声种子迭代转换为动作向量序列，预测未来一段时间内的动作。选择最近的预测作为最终动作输出，如图1(b)所示。

4）训练方法

训练目标

我们的模型是一个端到端系统，不涉及目标检测、姿态检测或路径规划；所有与任务相关的信息都完全存储在原始图像中，并仅由模型自身提取。我们只关注模型的输入和输出。因此采用行为克隆（BC）算法，从观测中预测动作，确保我们的智能体在相同观测下模仿专家演示。权重更新公式为：

然而，模型内部的动作头实际上预测的是受污染的专家动作的噪声，而不是直接预测动作。

将根据

的条件，预测与去噪迭代k对应的方差为

的高斯噪声，最终恢复未受污染的样本

。公式将转换为：

两阶段训练

此外，模型有两个任务：语言理解和动作生成。我们认为，直接使用多样的自然语言输入进行训练，可能会由于标签值不固定（同义句）而导致训练不稳定。这会增加训练负担，因为模型需要同时理解同义句和学习策略。因此，训练分为两个阶段。第一阶段使用单个、一致的句子（称为 "标准语言"）进行训练，以确保标签值稳定，使模型专注于学习策略。此步骤中可训练参数和训练语言为：

标

准

语

言

需要注意的是，为了加快训练速度并保护第一阶段中clip编码器的性能，在训练过程中通常消耗大量计算资源的视觉编码器，除最后一层外将被冻结。完成第一阶段后，模型具备了对齐固定指令及其对应动作的能力。

第二阶段训练将应用于模型，并向模型注入自然多样的语言标签。通过这种方式，基于标准语言的基础，自然语言能够快速且良好地与动作对齐。由于第二阶段的初始损失实际上很小，因此模型性能受损的风险有限。因此，包括视觉编码器在内的所有参数都将解冻，以进一步微调动作生成。此阶段的可训练参数和训练语言为：

标

准

语

言

自

然

语

言

通过第一阶段使标准语言和策略对齐，第二阶段使自然语言与标准语言对齐，自然语言和策略就自然地对齐了。两阶段训练如图2(a)(b)所示。

5）数据增强

此外，由于我们的模型是端到端运行的，它直接将图像作为观测数据进行处理。这些图像通常包含大量冗余信息，这意味着即使图像质量下降，机器人操作所需的关键信息也应保持完整。例如，当图像被噪声污染时，模型应该能够从未被污染的部分或整个图像中捕捉到操作所需的关键信息。我们强调了数据增强的重要性，并在这项工作中应用了一些增强技术。

椒盐噪声：椒盐噪声是一种脉冲噪声。它在图像中随机呈现为白色（盐）和黑色（胡椒）像素，就像撒在图像上的盐粒和胡椒粒一样。引入这种噪声可以迫使模型将像素作为一个整体来关注其含义，而不是依赖于特定的像素。效果如图3（a）中的第二张图所示。

仿射变换：生物在执行各种任务时并不依赖于稳定或特定的视角。由于身体位置的不确定性，观测结果可能会经历平移、旋转、拉伸、缩放和扭曲。然而，人类和其他动物能够理解不同物体之间的相对关系。通过引入仿射变换，可以对图像进行上述增强操作，以模拟视角的物理变化，帮助模型从RGB图像中理解物理信息。效果如图3（a）中的第四张图所示。

颜色抖动：图像给我们提供的重要信息之一来自高频分量，例如边缘、轮廓、形状、纹理。而像颜色、光照、温度等低频属性不应严重干扰模型的判断。受这一概念的启发，并借鉴YOLO的训练策略，我们使用了颜色抖动技术。对于对颜色不敏感的操作，在HSV空间中进行抖动将帮助模型专注于物体的形状，并在颜色方面实现泛化。具体来说，对于CALVIN基准测试，与颜色相关的任务通常涉及粉色、红色和蓝色等简单纯色。因此，我们应用一个掩码来保护相应的色调，只改变环境中的颜色。效果如图3（a）中的第三张图所示。

机器人混合（Robotic Mixup）：Mixup是一种在机器学习中非常流行的增强技术，被计算机视觉、自然语言处理、音频识别等多种任务广泛采用。它通过组合成对的数据点来创建新的合成训练示例。例如，在处理图像数据时，Mixup将两张不同的图像混合在一起，并对它们相应的标签进行线性插值。通过这样做，它显著增加了训练数据集的多样性，丰富了数据的多样性，进而提升了模型的泛化能力。类似的技术也应用于机器人操作任务中。具体来说，我们会随机选择两个样本，并通过计算RGB、语言标记等输入以及标签（即动作）的加权平均值来生成一个新样本。以下公式展示了这个过程，

和

分别是输入和标签：

权重

将从

的beta分布中采样，即：

效果如图3（b）所示。混合后的观测结果对两张图像都呈现出一种透明效果，语言嵌入和动作向量也将以相同的方式进行加权平均。

实验分析

1）实验设置

仿真环境和数据集：使用Calvin数据集，它基于PyBullet提供了一个桌面仿真环境，并设计了一系列机器人任务和评估程序。Calvin数据集包含23类任务，包括提起、推动、旋转、移动等操作，并且这些操作需要按顺序完成，这引入了很多不确定性和随机性，因此它是一个非常具有挑战性的基准测试。该数据集包含大量专家演示，被划分为几个子集。我们将使用

和

子集。此外，在训练过程中，仅使用数据集中包含动作自然语言描述的专家演示。根据环境协议，所有测试都包含1000组，每组由5个带有指定自然语言指令的子任务组成。为了验证RoboBERT在真实物理环境中的有效性，还进行了真实机器人实验。我们使用具有6自由度的REALMAN RM65B机械臂，并设计了一系列任务来评估RoboBERT在单个任务和指令跟随任务中的性能。为了使模型具备解决这些任务的能力，每个任务通过手动遥控收集25 - 30条轨迹，包括静态和夹爪相机的RGB图像以及动作增量。对于语言标签，除了人工给出的标签外，还使用GPT为相同任务生成各种表达。

训练配置：在训练过程中，使用两块显存为24GB的RTX 3090显卡。当在

数据集上使用这两块显卡进行分布式训练时，第一阶段训练完成10个训练周期，每个周期持续约40分钟；第二阶段训练完成5个训练周期，每个周期持续约90分钟。与其他使用大型预训练框架的模型相比，我们的训练成本显著降低。

2）基线模型

将我们的模型与五个基线模型进行比较：HULC、GR - 1、DeeR、MoDE、3D diffuser Actor和RoboFlamingo。HULC利用分层任务表示结合VAE编码器来融合多模态信息，用于底层策略学习。GR - 1利用在大规模视频任务上预训练的模型，随后复制权重在机器人任务上进行微调。RoboFlamingo利用大型多模态语言模型进行模态融合，使用融合后的潜在向量进行模仿学习。DeeR - VLA在多模态大语言模型中引入多出口架构，并开发算法根据计算成本和GPU内存使用等需求设置提前终止标准，以减少计算量。MoDE使用扩散策略，该策略采用带有噪声条件路由策略和专家缓存机制的混合专家Transformer，以提高模仿学习的性能和效率。3D diffuser Actor使用3D去噪Transformer融合来自3D视觉场景、语言指令和本体感受的信息，以预测机器人位姿轨迹。

3）真实机器人实验结果

模型比较：在这里，我们比较了前面表格1和表格2中最先进模型的性能。在这两个表格中，"Observation"表示模型使用的模态：S、G、P和C分别代表静态相机、夹爪相机、本体感受和相机参数。"Pretrain"表示模型是否使用大型预训练模型或额外数据：Y表示是，N表示否。"Parameters(T)"表示大约的可训练参数数量。

模仿性能：从表1中

数据集的成功率可以看出，我们的模型表现优于所有其他模型。大多数之前的最佳模型，如GR系列、RoboFlamingo或MoDE，都依赖于Calvin数据集中未标记的数据或额外的开源机器人数据，这通常需要更多的存储空间和训练成本。它们的消融实验也证明，如果没有大规模预训练，性能会显著下降。一些模型，如GR - 1，使用了更多的模态，如本体感受和数据（2.7TB），但成功率仍然比我们的模型低。RoboBERT的另一个显著优势是权重数量，与其他先进模型，如MoDE、DeeR和RoboFlamingo相比，也非常有竞争力。后两种方法实际上是大型基础模型的改进版本，拥有数十亿的参数。总体而言，我们的模型通过强大的数据增强充分利用了有限的数据集，减少了对外部数据的依赖，在这个基准测试中展现出了惊人的性能提升。

零样本实验：表2展示了在面对训练数据集中未出现的陌生目标D（即

任务）时的性能。模型必须利用在不同环境中学习到的经验来适应新环境。结果显示，在

任务上，我们模型的排名与之前类似。与使用额外数据集或更多观测输入（如本体感受和深度信息）的模型相比，我们的方法仍然表现出非常出色的适应性和泛化能力，并且超过了这些方法。虽然在使用额外数据的情况下，我们的方法与MoDE相比性能稍逊一筹，但在使用相同规模数据集的公平情况下，我们的成功率更高。

消融研究

两阶段训练方法：为了验证两阶段训练方法确实提高了训练效果，我们分别在两个数据集上进行了直接使用自然语言（NL. directly）和两阶段训练方法（Two - stage）的实验。结果如表3所示。可以观察到，直接使用多样的自然语言和相应动作进行训练会在很大程度上限制模型性能。模型很难同时理解两种模态之间的匹配关系。然而，在第一阶段训练的帮助下，已经形成了良好的权重初始化，能够区分针对稳定、简单指令的策略。基于之前简单任务训练提供的正确优化方向，理解复杂表达的难度显著降低。

数据增强：为了评估数据增强的有效性，在

数据集上对不同类型的数据增强进行了对比实验。在实验中，测试了椒盐噪声（信噪比 = 0.95）、随机平移（幅度 = 15%）、颜色抖动（HSV幅度 = 0.4）、机器人混合（

）以及它们的组合。像信噪比、幅度等数据增强的具体强度是超参数，通过试验经验性地设置并选取最佳值。结果表明，并非所有的数据增强都对我们的方法有积极影响。理论上，随机平移可以提供不同的观测视角，但却降低了成功率。在

测试和真实机器人实验中也观察到了类似的现象。我们认为视角的变化可能会引入空间位置的模糊性。例如，当立方体位于夹爪相机右侧时，模型可能无法确定立方体是因为增强操作而移动到了右侧，还是原本就在右侧。尽管图像中的夹爪可以作为消除这种模糊性的良好参考，但模型可能很难理解它。颜色抖动对性能的提升最大。专家演示和测试环境之间的差异来自布局和颜色。颜色抖动可以在很大程度上消除后者的影响，明确地向模型提示操作与颜色无关，而与形状有关（对于颜色敏感的操作，可以通过保护特定颜色来适用）。这对于帮助模型克服现实中不同光照、相机设置、阴影和算法校准的干扰非常有用。椒盐噪声和机器人混合都对性能有相似且适度的提升，这表明即使是简单且易于实现的数据增强也可以改善端到端的机器人操作。为了验证它们的联合有效性，应用了上述所有的数据增强并进行测试，标记为"Combining All"，以及排除有负面影响的仿射变换的所有增强，标记为"Combining All w/o Aff"。结果表明，整体的提升无疑高于单个增强的效果，但并不是每个增强效果的简单相加。结果还证明仿射变换并不能进一步提升性能。

真实机器人实验

单个任务：为了评估方法是否能够在不同位置配置下完成指定任务，我们设计了一些任务，如堆叠立方体、将笔放回笔筒和打开柜门，分别表示为"Stack Cube"、"Trans. P."和"Open Door"。被操作物体的位置或机械臂的初始姿态是随机设置的。此外，测试环境与数据集中的环境并不完全相同，例如存在不同的背景物体。如表5所示，与其他流行的语言条件机器人模型RT - 1和MT - ACT相比，我们的方法表现出更好的性能。然而，也可以观察到，端到端模型通常对一些较大的干扰（如视野中心的奇怪物体）有点敏感，模型会对这些变化表现出"困惑"或"犹豫"，成功率会下降。

顺序任务：为了评估我们的方法是否能够遵循自然语言指令完成长序列任务，我们还设计了类似于Calvin基准测试的顺序任务。除了从随机位置转移物体外，还包括对物体（如抽屉）的关节操作。在测试过程中，下一个动作基于上一个动作的结果，这产生了更大的不确定性和难度。表5中的结果也显示了我们的方法在处理长期任务方面的巨大潜力，超过了其他流行方法。然而，它也存在一些缺点。模型本身无法确定任务是否成功完成，目前切换操作由人工进行。如果不这样做，会产生混淆，甚至执行不属于相应语言指令的其他动作。例如，在没有指令的情况下，关闭门后它会自动执行打开抽屉的动作。这种现象在其他方法中也存在。未来的研究应该通过引入决策层来指导底层策略，以改进这一问题。