CoRL-2024 | 具身智能体无师自通!LeLaN:从无标签视频中学习语言条件下的导航策略

主要贡献

  • 论文提出了由基础模型指导的数据标注方法,利用基础模型为机器人和人类导航数据添加语言和动作标注。

  • 开源了超过120小时的第一视角视频数据,皆通过LeLaN进行了标注。其中包括来自3个国家11个城市15小时的人工收集视频。

  • 实证结果表明,生成的标签能够训练出在噪声指令、动态目标对象和障碍物避让方面更具鲁棒性的先进策略,且能够在不同环境、对象、指令、相机类型和实施主体之间进行泛化。

研究背景

研究问题

论文主要解决的问题是如何让机器人根据自然语言指令导航到任意指定的物体。现有的机器人在理解和执行用户指定的语言指令方面存在挑战。

研究难点

该问题的研究难点包括:

  • 获取高质量的标注数据成本高且耗时;

  • 现有的大型数据集通常不足以训练具有强泛化能力的端到端语言条件控制策略;

  • 基础模型在边缘计算设备上的运行成本过高。

相关工作

该问题的研究相关工作有:

  • 利用基础模型进行零样本语言驱动的视觉导航;

  • 使用模拟数据进行训练以规避现实世界的数据收集成本;

  • 从未标注视频中学习表示和奖励。

研究方法

论文提出了LeLaN(Learning Language-conditioned Navigation policy),用于解决机器人在无标签、无动作的第一视角数据上学习可扩展的语言条件对象导航的问题。

数据标注

利用基础模型对未标注视频数据进行标注:

  • 使用 Segment Anything 模型定位场景中的物体并生成掩码和边界框,然后将这些边界框用于图像裁剪。

  • 将裁剪后的图像输入开源的视觉语言模型(VLM)生成物体描述,

  • 再通过大语言模型(LLM)生成多种语言指令,

  • 使用机器人基础模型(RFM)和单目深度估计模型生成反事实动作标签,指导机器人导航到目标物体。

策略架构与训练

定义语言条件导航策略为 ,其中 和 分别是线速度和角速度,是与目标物体对应的prompt。

目标是结合到达目标、避免碰撞和平滑轨迹的目标函数进行训练:

其中, 是目标物体的二维虚拟位置,是策略生成的二维虚拟机器人位置, 是 RFM 生成的轨迹,是一个权重因子,、 和 分别表示目标到达、碰撞避免和平滑轨迹的目标。

训练数据收集

论文使用多种第一视角数据集进行训练,包括室内导航数据集、YouTube 游览数据集和人类行走数据集。

  • 室内导航数据集包含办公室环境中的移动机器人轨迹,

  • YouTube 游览数据集包含来自 32 个不同国家的 82.5 小时的 YouTube 视频,

  • 人类行走数据集包含在室内外环境中行走的 15.7 小时视频。

实验

在五个不同的环境中进行评估,包括三个室内楼层和两个室外空间,共 28 个物体或结构。每个物体生成 5-6 条语言指令,评估LeLaN在简单和噪声指令下的鲁棒性。

基线模型

对比了四种基线方法:CLIP on Wheels(CoW)、OWL-v2+Zoedepth、OWL-ViT+ViNT和OpenFMNav。

  • CoW使用OWL-ViT B/32检测器和Depth360估计深度,通过状态格子运动规划器控制机器人。

  • OWL-v2+Zoedepth使用更高性能模型,但推理速度较慢。

  • OWL-ViT+ViNT结合视觉导航模型和控制策略。

  • OpenFMNav针对嘈杂语言指令进行零样本对象导航,简化为最后一英里导航,使用GPT-4o和Grounded-SAM进行对象识别和分割。

所有方法均使用Depth360进行深度估计,并控制机器人向目标对象移动。

多样语言指令下的性能

在 1050 次评估中,LeLaN 在简单指令下的平均成功率为 89%,在噪声指令下的成功率为 70%,比最强基线高出 25%。

挑战性设置下的能力分析

在障碍物避让实验中,LeLaN在有障碍物和无障碍物情况下的成功率分别为 0.6 和 0.89;在长距离导航实验中,LeLaN通过拓扑记忆扩展到长距离导航;在动态物体导航实验中,LeLaN显著优于基线。

跨机器人类型分析

LeLaN在不同机器人设置下的导航成功率均超过 90%,展示了其在不同机器人类型的泛化能力。

数据消融

增加 YouTube 游览数据集后,LeLaN的性能显著提高,表明其在多样环境中的数据增强效果显著。

总结

论文提出了 LeLaN,一种利用基础模型从无标签、无动作的第一视角数据中学习可扩展的语言条件对象导航的方法。

实验结果表明,LeLaN 在复杂语言指令、动态目标物体和障碍物避让方面表现出色,且在不同机器人类型和摄像头类型下具有良好的泛化能力。

相关推荐
跨境卫士—小依12 小时前
平台流量分发机制变化跨境卖家如何重新获取曝光
大数据·人工智能·跨境电商·亚马逊·营销策略
阿杰学AI12 小时前
AI核心知识120—大语言模型之 基于人类反馈的强化学习 (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·rlhf·基于人类反馈的强化学习
羽师12 小时前
MoE是什么?
人工智能
亚马逊云开发者12 小时前
OpenClaw 部署安全第一步:用 VPC Endpoint 让 AI Agent 调用 Bedrock 全走内网
人工智能·安全
优家数科13 小时前
2026 中国净水出海白皮书:欧洲准入的技术红线与智能化破局
人工智能·mysql瓶颈
ZPC821013 小时前
MoveIt Servo 与自己编写的 Action Server 通信
人工智能·算法·机器人
AIminminHu13 小时前
OpenGL渲染与几何内核那点事-项目实践理论补充(一-3-(1):你的 CAD 终于能联网协作了,但渲染的“内功心法”到底是什么?)
人工智能·opengl
AI自动化工坊13 小时前
Caveman技能实战:优化AI对话风格实现65%的token成本节省
人工智能·深度学习·机器学习·ai·token·caveman
有个人神神叨叨13 小时前
Claude Managed Agents 快速入门笔记
人工智能·笔记
tyler_download13 小时前
揉扁搓圆transformer架构:KL散度损失函数的说明
人工智能·深度学习·transformer