加州大学伯克利分校最新研究:通过语言融合视听触觉异构传感器实现机器人通用操作策略微调世界互动是一种多感官体验:实现有效的通用交互需要利用所有可用的方式——包括视觉、触觉和音频——来填补部分观察的空白。例如,当伸手进入包中时,机器人应该依靠其触觉和听觉。然而,最先进的通才机器人策略通常在大型数据集上进行训练,以仅根据视觉和本体感觉观察来预测机器人动作。在这项工作中提出了 FuSe,这是一种新颖的方法,通过利用自然语言作为通用的跨模态基础,可以在大型数据集不易获得的异构传感器模态上微调视觉运动通用策略。我们将多模态对比损失与基于感觉的语言生成损失相结合,以编码高级语义。在机器人操作的背景下,