加州大学伯克利分校最新研究：通过语言融合视听触觉异构传感器实现机器人通用操作策略微调

世界互动是一种多感官体验：实现有效的通用交互需要利用所有可用的方式------包括视觉、触觉和音频------来填补部分观察的空白。例如，当伸手进入包中时，机器人应该依靠其触觉和听觉。然而，最先进的通才机器人策略通常在大型数据集上进行训练，以仅根据视觉和本体感觉观察来预测机器人动作。在这项工作中提出了 FuSe，这是一种新颖的方法，通过利用自然语言作为通用的跨模态基础，可以在大型数据集不易获得的异构传感器模态上微调视觉运动通用策略。我们将多模态对比损失与基于感觉的语言生成损失相结合，以编码高级语义。在机器人操作的背景下，我们表明 FuSe 能够在零镜头设置中执行具有挑战性的任务，这些任务需要在零镜头设置中对视觉、触觉和声音等模态进行联合推理，例如多模态提示、组合跨模态提示和与之交互的对象的描述。相同的策略适用于大相径庭的通才政策，包括基于扩散的通才政策和大型视觉-语言-行动（VLA）模型。现实世界中的大量实验表明，与所有考虑的基线相比，FuSe 能够将成功率提高 20% 以上。方法

原始地使用以额外传感器数据为条件的均方误差（MSE）模仿损失来微调预训练的通才策略，导致该策略过度依赖其预训练模态而忽略了新模态。FuSe 通过引入两个额外的损失来克服这一限制，这两个损失充分利用了多模态，并将预训练的通才策略的语义知识与看不见的传感器模态联系起来：多模态对比损失：CLIP 风格的对比学习损失旨在最大化同一场景的不同模态和语义之间的互信息。具体来说，我们通过再次通过 transformer 馈送所有模态并通过多头注意力层将它们组合起来来构建一个观察嵌入。然后，我们计算由组合不同的可用模态产生的每条可能指令的 CLIP 损失。这些损失最终被平均以形成组合的多模态对比损失。多模态生成损失：我们设计了一个生成网络，作为 backbone 模型的附加头。在实践中，对于每种可能的模态组合，我们构建了一个如上所述的观察嵌入，并通过生成头馈送它。然后，我们通过将 head 输出与适当的语言指令进行比较来计算辅助交叉熵损失。我们使用单个转换器作为所有可能的模态组合的生成头，并使用模态标记来区分输入模态。

数据我们收集了 26,866 条轨迹的数据集，涉及三项具有挑战性的任务，其中机器人使用 Meta Oculus Quest 2 VR 耳机进行远程操作。任务包括：抓取，桌面：多个对象被放置在一个托盘上，机器人必须按照文本命令的提示抓住并抬起正确的对象。抓握、购物袋：与（1）类似;然而，一旦手臂进入包中，第三人称视角就会被严重遮挡，照明也会受到严重影响。按钮按下：多个彩色的声音播放按钮与干扰器一起放置在托盘上。系统会提示机器人按下一个按钮，从而播放一个简短的音频剪辑。我们还在此设置中包括了一些合成轨迹：相反，系统会提示机器人抓取与按钮具有相同视觉特征的干扰物，例如"抓取与弹奏钢琴的按钮具有相同颜色的物体"

两个抓取任务（桌面和购物袋）具有视觉、触觉和动作数据，而按钮按下和合成任务还包括声音。目视观察以 640x480 的分辨率记录，而触觉 DIGIT 图像的分辨率为 320x240。音频观测包括 1 个最新的麦克风样本，以 44,100Hz 的频率记录。结果FuSe 提高了许多任务和设置的性能，并支持跨模态推理。

我们将 FuSe 与几个基线进行了比较。Octo Vision FT 是指在我们的数据集上微调的预训练 Octo 模型，仅使用视觉模态; Octo scratch 是指使用所有模态在我们的数据集上从头开始训练相同大小的 Octo 转换器;ResNet Scratch 是指从头开始在所有模态上训练一个较小的基于 ResNet 的模型。FuSe 在所有环境中都优于基线，在部分可观察的购物袋任务中最为明显。

FuSe 还支持简单和复杂的跨模态推理功能。我们通过两项任务来演示这一点。

简单任务我们提示策略抓取与播放特定声音的训练按钮具有相同颜色的对象（例如，"抓取与播放钢琴的按钮具有相同颜色的对象"）

多步骤任务我们利用生成式 head 来连接不同的子任务。首先，我们仅使用视觉指令（例如，"按下蓝色按钮"）提示模型按下训练时看不到的按钮;此按钮播放训练期间听到的声音。然后，我们将结果声音馈送到生成头，生成头将生成与相应音频相关的指令（例如，"按下弹钢琴的按钮"）。最后，我们在训练环境中使用音频指令提示模型，其中模型已经将按钮的视觉提示与相应的声音相关联，并将执行一个轨迹，最终按下按钮，该按钮播放与第一个子任务中按下的按钮相同的声音。

提示机器人按下（看不见的）粉红色按钮，然后根据音频输出生成命令"按下播放金属音乐的按钮"，并执行该命令。

尽管我们的大多数实验都是使用 Octo Transformer进行的，但 FuSe 方法具有广泛的适用性。我们在测试环境中将其应用于基于 PaliGemma 的 3B 参数 VLA，在 OXE 上进行预训练，并在我们的多模态数据集上进行微调。我们的策略在抓取任务上取得了稳健的表现，展示了 FuSe 对不同的通才政策。

title={Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding},author={Joshua Jones and Oier Mees and Carmelo Sferrazza and Kyle Stachowicz and Pieter Abbeel and Sergey Levine},journal={arXiv preprint arXiv:2501.04693}, year={2025}