CoRL-2024 | 具身智能体无师自通!LeLaN:从无标签视频中学习语言条件下的导航策略

主要贡献

  • 论文提出了由基础模型指导的数据标注方法,利用基础模型为机器人和人类导航数据添加语言和动作标注。

  • 开源了超过120小时的第一视角视频数据,皆通过LeLaN进行了标注。其中包括来自3个国家11个城市15小时的人工收集视频。

  • 实证结果表明,生成的标签能够训练出在噪声指令、动态目标对象和障碍物避让方面更具鲁棒性的先进策略,且能够在不同环境、对象、指令、相机类型和实施主体之间进行泛化。

研究背景

研究问题

论文主要解决的问题是如何让机器人根据自然语言指令导航到任意指定的物体。现有的机器人在理解和执行用户指定的语言指令方面存在挑战。

研究难点

该问题的研究难点包括:

  • 获取高质量的标注数据成本高且耗时;

  • 现有的大型数据集通常不足以训练具有强泛化能力的端到端语言条件控制策略;

  • 基础模型在边缘计算设备上的运行成本过高。

相关工作

该问题的研究相关工作有:

  • 利用基础模型进行零样本语言驱动的视觉导航;

  • 使用模拟数据进行训练以规避现实世界的数据收集成本;

  • 从未标注视频中学习表示和奖励。

研究方法

论文提出了LeLaN(Learning Language-conditioned Navigation policy),用于解决机器人在无标签、无动作的第一视角数据上学习可扩展的语言条件对象导航的问题。

数据标注

利用基础模型对未标注视频数据进行标注:

  • 使用 Segment Anything 模型定位场景中的物体并生成掩码和边界框,然后将这些边界框用于图像裁剪。

  • 将裁剪后的图像输入开源的视觉语言模型(VLM)生成物体描述,

  • 再通过大语言模型(LLM)生成多种语言指令,

  • 使用机器人基础模型(RFM)和单目深度估计模型生成反事实动作标签,指导机器人导航到目标物体。

策略架构与训练

定义语言条件导航策略为 ,其中 和 分别是线速度和角速度,是与目标物体对应的prompt。

目标是结合到达目标、避免碰撞和平滑轨迹的目标函数进行训练:

其中, 是目标物体的二维虚拟位置,是策略生成的二维虚拟机器人位置, 是 RFM 生成的轨迹,是一个权重因子,、 和 分别表示目标到达、碰撞避免和平滑轨迹的目标。

训练数据收集

论文使用多种第一视角数据集进行训练,包括室内导航数据集、YouTube 游览数据集和人类行走数据集。

  • 室内导航数据集包含办公室环境中的移动机器人轨迹,

  • YouTube 游览数据集包含来自 32 个不同国家的 82.5 小时的 YouTube 视频,

  • 人类行走数据集包含在室内外环境中行走的 15.7 小时视频。

实验

在五个不同的环境中进行评估,包括三个室内楼层和两个室外空间,共 28 个物体或结构。每个物体生成 5-6 条语言指令,评估LeLaN在简单和噪声指令下的鲁棒性。

基线模型

对比了四种基线方法:CLIP on Wheels(CoW)、OWL-v2+Zoedepth、OWL-ViT+ViNT和OpenFMNav。

  • CoW使用OWL-ViT B/32检测器和Depth360估计深度,通过状态格子运动规划器控制机器人。

  • OWL-v2+Zoedepth使用更高性能模型,但推理速度较慢。

  • OWL-ViT+ViNT结合视觉导航模型和控制策略。

  • OpenFMNav针对嘈杂语言指令进行零样本对象导航,简化为最后一英里导航,使用GPT-4o和Grounded-SAM进行对象识别和分割。

所有方法均使用Depth360进行深度估计,并控制机器人向目标对象移动。

多样语言指令下的性能

在 1050 次评估中,LeLaN 在简单指令下的平均成功率为 89%,在噪声指令下的成功率为 70%,比最强基线高出 25%。

挑战性设置下的能力分析

在障碍物避让实验中,LeLaN在有障碍物和无障碍物情况下的成功率分别为 0.6 和 0.89;在长距离导航实验中,LeLaN通过拓扑记忆扩展到长距离导航;在动态物体导航实验中,LeLaN显著优于基线。

跨机器人类型分析

LeLaN在不同机器人设置下的导航成功率均超过 90%,展示了其在不同机器人类型的泛化能力。

数据消融

增加 YouTube 游览数据集后,LeLaN的性能显著提高,表明其在多样环境中的数据增强效果显著。

总结

论文提出了 LeLaN,一种利用基础模型从无标签、无动作的第一视角数据中学习可扩展的语言条件对象导航的方法。

实验结果表明,LeLaN 在复杂语言指令、动态目标物体和障碍物避让方面表现出色,且在不同机器人类型和摄像头类型下具有良好的泛化能力。

相关推荐
我是阿萌31 分钟前
案例讲解自然语言处理(NLP)
人工智能·学习·算法·自然语言处理
weixin---lwxmw889942 分钟前
AI视频配音技术创新应用与商业机遇
人工智能
AIWhispers1 小时前
Word2Vec:将词汇转化为向量的技术
人工智能·自然语言处理·word2vec
普密斯科技2 小时前
3D工具显微镜的测量范围
人工智能·计算机视觉·3d·自动化·视觉检测·集成测试
三月七(爱看动漫的程序员)2 小时前
AI Alignment: A Comprehensive Survey---分布转移下的学习
人工智能·gpt·深度学习·学习·语言模型·自然语言处理·chatgpt
老大白菜2 小时前
OpenAI 与 ChatGPT 的关系解析
人工智能·chatgpt
bryant_meng2 小时前
【Double Head】《Rethinking Classification and Localization for Object Detection》
人工智能·目标检测·计算机视觉·double head·decouple head
KiraFenvy2 小时前
【踩坑】Pytorch与CUDA版本的关系及安装
人工智能·pytorch·python
酒酿小圆子~2 小时前
PyTorch中apex的安装方式
人工智能·pytorch·python
机器之心2 小时前
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息
人工智能·后端