CoRL-2024 | 具身智能体无师自通!LeLaN:从无标签视频中学习语言条件下的导航策略

主要贡献

  • 论文提出了由基础模型指导的数据标注方法,利用基础模型为机器人和人类导航数据添加语言和动作标注。

  • 开源了超过120小时的第一视角视频数据,皆通过LeLaN进行了标注。其中包括来自3个国家11个城市15小时的人工收集视频。

  • 实证结果表明,生成的标签能够训练出在噪声指令、动态目标对象和障碍物避让方面更具鲁棒性的先进策略,且能够在不同环境、对象、指令、相机类型和实施主体之间进行泛化。

研究背景

研究问题

论文主要解决的问题是如何让机器人根据自然语言指令导航到任意指定的物体。现有的机器人在理解和执行用户指定的语言指令方面存在挑战。

研究难点

该问题的研究难点包括:

  • 获取高质量的标注数据成本高且耗时;

  • 现有的大型数据集通常不足以训练具有强泛化能力的端到端语言条件控制策略;

  • 基础模型在边缘计算设备上的运行成本过高。

相关工作

该问题的研究相关工作有:

  • 利用基础模型进行零样本语言驱动的视觉导航;

  • 使用模拟数据进行训练以规避现实世界的数据收集成本;

  • 从未标注视频中学习表示和奖励。

研究方法

论文提出了LeLaN(Learning Language-conditioned Navigation policy),用于解决机器人在无标签、无动作的第一视角数据上学习可扩展的语言条件对象导航的问题。

数据标注

利用基础模型对未标注视频数据进行标注:

  • 使用 Segment Anything 模型定位场景中的物体并生成掩码和边界框,然后将这些边界框用于图像裁剪。

  • 将裁剪后的图像输入开源的视觉语言模型(VLM)生成物体描述,

  • 再通过大语言模型(LLM)生成多种语言指令,

  • 使用机器人基础模型(RFM)和单目深度估计模型生成反事实动作标签,指导机器人导航到目标物体。

策略架构与训练

定义语言条件导航策略为 ,其中 和 分别是线速度和角速度,是与目标物体对应的prompt。

目标是结合到达目标、避免碰撞和平滑轨迹的目标函数进行训练:

其中, 是目标物体的二维虚拟位置,是策略生成的二维虚拟机器人位置, 是 RFM 生成的轨迹,是一个权重因子,、 和 分别表示目标到达、碰撞避免和平滑轨迹的目标。

训练数据收集

论文使用多种第一视角数据集进行训练,包括室内导航数据集、YouTube 游览数据集和人类行走数据集。

  • 室内导航数据集包含办公室环境中的移动机器人轨迹,

  • YouTube 游览数据集包含来自 32 个不同国家的 82.5 小时的 YouTube 视频,

  • 人类行走数据集包含在室内外环境中行走的 15.7 小时视频。

实验

在五个不同的环境中进行评估,包括三个室内楼层和两个室外空间,共 28 个物体或结构。每个物体生成 5-6 条语言指令,评估LeLaN在简单和噪声指令下的鲁棒性。

基线模型

对比了四种基线方法:CLIP on Wheels(CoW)、OWL-v2+Zoedepth、OWL-ViT+ViNT和OpenFMNav。

  • CoW使用OWL-ViT B/32检测器和Depth360估计深度,通过状态格子运动规划器控制机器人。

  • OWL-v2+Zoedepth使用更高性能模型,但推理速度较慢。

  • OWL-ViT+ViNT结合视觉导航模型和控制策略。

  • OpenFMNav针对嘈杂语言指令进行零样本对象导航,简化为最后一英里导航,使用GPT-4o和Grounded-SAM进行对象识别和分割。

所有方法均使用Depth360进行深度估计,并控制机器人向目标对象移动。

多样语言指令下的性能

在 1050 次评估中,LeLaN 在简单指令下的平均成功率为 89%,在噪声指令下的成功率为 70%,比最强基线高出 25%。

挑战性设置下的能力分析

在障碍物避让实验中,LeLaN在有障碍物和无障碍物情况下的成功率分别为 0.6 和 0.89;在长距离导航实验中,LeLaN通过拓扑记忆扩展到长距离导航;在动态物体导航实验中,LeLaN显著优于基线。

跨机器人类型分析

LeLaN在不同机器人设置下的导航成功率均超过 90%,展示了其在不同机器人类型的泛化能力。

数据消融

增加 YouTube 游览数据集后,LeLaN的性能显著提高,表明其在多样环境中的数据增强效果显著。

总结

论文提出了 LeLaN,一种利用基础模型从无标签、无动作的第一视角数据中学习可扩展的语言条件对象导航的方法。

实验结果表明,LeLaN 在复杂语言指令、动态目标物体和障碍物避让方面表现出色,且在不同机器人类型和摄像头类型下具有良好的泛化能力。

相关推荐
智慧地球(AI·Earth)8 分钟前
OpenAI for Countries:全球AI基础设施的“技术基建革命”
开发语言·人工智能·php
AI改变未来16 分钟前
我们该如何使用DeepSeek帮我们减负?
人工智能·deepseek
武乐乐~19 分钟前
论文精读:YOLO-UniOW: Efficient Universal Open-World Object Detection
人工智能·yolo·目标检测
Leinwin20 分钟前
GPT-4.1和GPT-4.1-mini系列模型支持微调功能,助力企业级智能应用深度契合业务需求
人工智能
唐兴通个人21 分钟前
知名人工智能AI培训公开课内训课程培训师培训老师专家咨询顾问唐兴通AI在金融零售制造业医药服务业创新实践应用
人工智能
MVP-curry-萌神37 分钟前
FPGA图像处理(六)------ 图像腐蚀and图像膨胀
图像处理·人工智能·fpga开发
struggle20251 小时前
ebook2audiobook开源程序使用动态 AI 模型和语音克隆将电子书转换为带有章节和元数据的有声读物。支持 1,107+ 种语言
人工智能·开源·自动化
深空数字孪生1 小时前
AI+可视化:数据呈现的未来形态
人工智能·信息可视化
标贝科技1 小时前
标贝科技:大模型领域数据标注的重要性与标注类型分享
数据库·人工智能
aminghhhh1 小时前
多模态融合【十九】——MRFS: Mutually Reinforcing Image Fusion and Segmentation
人工智能·深度学习·学习·计算机视觉·多模态