CoRL-2024 | 具身智能体无师自通！LeLaN：从无标签视频中学习语言条件下的导航策略

作者：Noriaki Hirose, Catherine Glossop, Ajay Sridhar, Dhruv Shah, Oier Mees, Sergey Levine
单位：加州大学伯克利分校，丰田汽车北美分公司
原文链接：LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos (https://arxiv.org/pdf/2410.03603)
数据集下载：https://learning-language-navigation.github.io/
代码链接：https://github.com/NHirose/learning-language-navigation

主要贡献

论文提出了由基础模型指导的数据标注方法，利用基础模型为机器人和人类导航数据添加语言和动作标注。
开源了超过120小时的第一视角视频数据，皆通过LeLaN进行了标注。其中包括来自3个国家11个城市15小时的人工收集视频。
实证结果表明，生成的标签能够训练出在噪声指令、动态目标对象和障碍物避让方面更具鲁棒性的先进策略，且能够在不同环境、对象、指令、相机类型和实施主体之间进行泛化。

研究背景

研究问题

论文主要解决的问题是如何让机器人根据自然语言指令导航到任意指定的物体。现有的机器人在理解和执行用户指定的语言指令方面存在挑战。

研究难点

该问题的研究难点包括：

获取高质量的标注数据成本高且耗时；
现有的大型数据集通常不足以训练具有强泛化能力的端到端语言条件控制策略；
基础模型在边缘计算设备上的运行成本过高。

研究方法

论文提出了LeLaN（Learning Language-conditioned Navigation policy），用于解决机器人在无标签、无动作的第一视角数据上学习可扩展的语言条件对象导航的问题。

数据标注

利用基础模型对未标注视频数据进行标注：

使用 Segment Anything 模型定位场景中的物体并生成掩码和边界框，然后将这些边界框用于图像裁剪。
将裁剪后的图像输入开源的视觉语言模型（VLM）生成物体描述，
再通过大语言模型（LLM）生成多种语言指令，
使用机器人基础模型（RFM）和单目深度估计模型生成反事实动作标签，指导机器人导航到目标物体。

策略架构与训练

定义语言条件导航策略为，其中和分别是线速度和角速度，是与目标物体对应的prompt。

目标是结合到达目标、避免碰撞和平滑轨迹的目标函数进行训练：

其中，是目标物体的二维虚拟位置，是策略生成的二维虚拟机器人位置，是 RFM 生成的轨迹，是一个权重因子，、和分别表示目标到达、碰撞避免和平滑轨迹的目标。

训练数据收集

论文使用多种第一视角数据集进行训练，包括室内导航数据集、YouTube 游览数据集和人类行走数据集。

室内导航数据集包含办公室环境中的移动机器人轨迹，
YouTube 游览数据集包含来自 32 个不同国家的 82.5 小时的 YouTube 视频，
人类行走数据集包含在室内外环境中行走的 15.7 小时视频。

实验

在五个不同的环境中进行评估，包括三个室内楼层和两个室外空间，共 28 个物体或结构。每个物体生成 5-6 条语言指令，评估LeLaN在简单和噪声指令下的鲁棒性。

基线模型

对比了四种基线方法：CLIP on Wheels（CoW）、OWL-v2+Zoedepth、OWL-ViT+ViNT和OpenFMNav。

CoW使用OWL-ViT B/32检测器和Depth360估计深度，通过状态格子运动规划器控制机器人。
OWL-v2+Zoedepth使用更高性能模型，但推理速度较慢。
OWL-ViT+ViNT结合视觉导航模型和控制策略。
OpenFMNav针对嘈杂语言指令进行零样本对象导航，简化为最后一英里导航，使用GPT-4o和Grounded-SAM进行对象识别和分割。

所有方法均使用Depth360进行深度估计，并控制机器人向目标对象移动。

多样语言指令下的性能

在 1050 次评估中，LeLaN 在简单指令下的平均成功率为 89%，在噪声指令下的成功率为 70%，比最强基线高出 25%。

挑战性设置下的能力分析

在障碍物避让实验中，LeLaN在有障碍物和无障碍物情况下的成功率分别为 0.6 和 0.89；在长距离导航实验中，LeLaN通过拓扑记忆扩展到长距离导航；在动态物体导航实验中，LeLaN显著优于基线。

跨机器人类型分析

LeLaN在不同机器人设置下的导航成功率均超过 90%，展示了其在不同机器人类型的泛化能力。

数据消融

增加 YouTube 游览数据集后，LeLaN的性能显著提高，表明其在多样环境中的数据增强效果显著。

总结

论文提出了 LeLaN，一种利用基础模型从无标签、无动作的第一视角数据中学习可扩展的语言条件对象导航的方法。

实验结果表明，LeLaN 在复杂语言指令、动态目标物体和障碍物避让方面表现出色，且在不同机器人类型和摄像头类型下具有良好的泛化能力。