无限世界中的具身导航与交互!InfiniteWorld:通用视觉语言机器人交互的统一仿真框架

  • 作者:Pengzhen Ren, Min Li, Zhen Luo, Xinshuai Song, Ziwei Chen, Weijia Liufu, Yixuan Yang, Hao Zheng, Rongtao Xu, Zitong Huang, Tongsheng Ding, Luyang Xie, Kaidong Zhang, Changfei Fu, Yang Liu, Liang Lin, Feng Zheng, Xiaodan Liang

  • 单位:鹏城实验室,中山大学,南方科技大学,穆罕默德·本·扎耶德人工智能大学

  • 论文链接:: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction (https://arxiv.org/pdf/2412.05789)

  • 代码链接:https://github.com/pzhren/InfiniteWorld

主要贡献

  1. 统一的和可扩展的模拟框架 :论文构建了一个统一的可扩展仿真框架InfiniteWorld,提供了统一的平台来支持大规模场景和对象资产的生成,大大缓解了社区缺乏高质量具身资产的困境。

  2. 智能点云自动标注框架:构建了一个完整的基于网络的智能点云自动标注框架 Annot8-3D,支持分布式协作、AI 辅助和可选的人机循环功能,为复杂的机器人交互提供了强有力的支持。

  3. 系统化的基准测试:设计了机器人交互基准测试,包括场景图协作探索和开放世界社交移动操作,提供了一个全面和系统的评估,用于评估具身智能体在感知、规划、执行和通信方面的能力。

  4. 生成驱动的 3D 资产构建:引入了生成驱动的 3D 资产构建方法,包括语言驱动的 3D 场景生成、可控关节对象生成和图像到 3D 对象重建,支持场景和对象资产的无限扩展。

研究背景

研究问题

具身智能(Embodied AI)的目标是让机器人在真实环境中进行自主学习和交互。这一领域的研究需要机器人具备在开放环境中自由探索、理解和操作的能力。

然而,实现这一目标面临着多个挑战,包括物理模拟的精确性、用户友好的界面设计、高度真实和多样的三维资产,以及综合的机器人交互任务设计。

研究内容

  • 统一的模拟框架:构建统一的模拟平台,集成多种改进的具身资产重建方法,以支持大规模场景和对象资产的生成。

  • 生成驱动的三维资产构建:引入生成驱动的方法来创建高质量的三维场景和对象资产,包括语言驱动的场景生成、可控关节对象生成和图像到三维对象的重建。

  • 社会交互基准测试:设计新的基准测试任务,如场景图协作探索和开放世界社交移动操作,以更全面地评估机器人在环境理解、任务规划和执行以及智能交互方面的能力。

相关工作

具身智能中的模拟器研究

  • 物理模拟和任务设计的进展:许多模拟器被开发用于具身 AI 相关研究,主要集中在提高物理模拟的真实性和任务设计的多样性。例如,从抽象的物理交互到符号推理,再到在 3D 扫描场景中进行导航研究,以及实现现实的动作和环境交互等。

  • 多样化的任务设置:研究者们探索了具身 AI 任务设置的多样性,例如使用生成模型和大型语言模型(LLM)来生成任务,研究桌面操作的分层推理任务,以及模拟社会交互等。

模拟器中的交互研究

  • 社会交互的重要性:社会交互是具身 AI 中最接近人类的交互方式,也是人机交互研究的关键。例如,Habitat 3.0 提出了一个人类参与的模式,使用 LLM 模拟真实的人类行为来探索仿人机器人和智能体之间的协作。

  • NPC 设计:GRUtopia 设计了一个具有全局环境信息的NPC角色,用于人机交互,提供关键的交互信息以帮助机器人完成复杂任务。然而,这种设计在现实中缺乏具有全局环境信息的 NPC,限制了对真实社会交互的模拟。

场景和资源管理研究

  • 资产扩展的挑战:实现模拟平台资产的扩展是当前具身 AI 发展中最关键的问题之一,也是获取大规模机器人数据的基础。研究者们研究了各种具身资产生成技术,如基于 3D 高斯散射技术的现实场景虚拟化、大规模 3D 场景和对象生成,以及关节对象资产生成。

  • 统一接口的需求:这些技术通常缺乏统一和有效的接口,难以完全应用。InfiniteWorld 提出了一个基于 Isaac Sim 平台的统一接口,实现了三维资产的无限扩展。

无限世界模拟

生成驱动的3D资产重建

为了构建一个大规模、交互式、现实的环境,模拟器支持生成驱动的3D资产重建。

  • 利用语言作为驱动器进行大规模场景生成,特别是基于HOLODECK的技术,通过文本驱动创建具有准确语义、良好空间布局和交互性的3D环境。

  • 实现基于HOLODECK的用户定义场景资产的自动化扩展,支持自由替换不同纹理的地板和墙壁,从而轻松扩展场景数量。

  • 集成单图像到3D对象的资产重建和可控关节生成,以进一步丰富资产库。

Real2Sim

为了提高场景重建的质量,模拟器引入了一种改进的Real2Sim方法,称为Depth-Prior-Constrained Real2Sim。该方法包括:

  • 使用深度估计模型生成相机坐标系内的深度估计,并结合PGSR的方法计算平面法向量,提供额外的监督信号。

  • 设计了一个完整的后处理步骤,优化模型的轴对齐、噪声、表面连续性和大小等问题。

Annot8-3D自动标注框架

为了提高3D点云标注的效率和准确性,模拟器提出了Annot8-3D自动标注框架。该框架结合了AI辅助自动化和人类在环路的细化,具体来说:

  • 多阶段标流程,通过粗到细的标注逐步细化分割结果。

  • 初始粗分割阶段使用Point Transformer V3进行自动化粗粒度分割。

  • 交互式细化阶段允许人类审查员通过正负提示引导特定区域的精细调整。

  • 手动微调阶段提供手动分割工具进行精确调整。

统一的3D资产接口

为了实现不同模拟平台之间的资产互操作性,模拟器提供了一个统一的3D资产接口。

  • 将不同格式的资产统一为.usd格式,以便在Isaac Sim平台上统一调用。

  • 提供从不同格式到可用格式的转换脚本,支持物理模拟。

  • 集成了多种3D场景和对象资产,覆盖广泛的类别,包括软体和透明物体的模拟。

实验

基准任务

  • 基准1:目标机动导航(Object Loco-Navigation)

    • 评估机器人根据语言指令导航到目标对象的能力。

    • 任务成功标准是目标对象出现在机器人的视野内。

  • 基准2: 机动操作(Loco-Manipulation)

    • 在Object Loco-Navigation的基础上,评估机器人在导航、操作和规划方面的能力。

    • 任务要求机器人理解自然语言指令,定位正确目标对象,并将其移动到目标位置并放置。

  • 基准3: 场景图协作构建(SGCE)

    • 评估多机器人协作构建场景图的能力。

    • 通过共享信息和合并视图来提高场景图的构建效率和信息丰富度。

  • 基准4: 开放世界社交移动操作(OWSMM)

    • 层次交互模拟具有层次知识结构的具身AI交互。

    • 平行交互模拟所有智能体具有平等知识获取能力的交互。

设置

  • 使用Stretch机器人作为执行智能体进行所有实验。

  • 使用GPT-4o结合HSSD数据集的场景语义生成任务指令。

  • 提供多种接口以支持不同级别的任务,包括占用图、路径规划和操作设置。

基线模型

  • LLM-Based Instruction Following:基于大型语言模型(LLM)和提示工程分解自然语言指令。

  • VLM Zero-Shot:输入全局场景信息和当前观察,输出机器人应执行的动作。

  • Single Semantic Map:使用目标导向的语义探索方法进行2D语义映射。

  • Random:在机器人的动作空间中随机采样执行动作。

  • LLM-Based Planning:使用Co-NavGPT进行多智能体系统的目标规划。

  • LLM-Planner:使用LLM直接生成计划,减少对环境先验知识的依赖。

评估指标

  • 使用成功率(SR)、成功加权路径长度(SPL)和导航误差(NE)等指标评估导航任务。

  • 对于Loco-Manipulation,还包括操作成功率和精度。

  • 对于SGCE,使用语义探索率(SER)和最小均方根误差(MRMSE)。

  • 对于OWSMM,使用SR、SPL、最小路径(MPL)和最长路径(LPL)。

结果与分析

目标机动导航

  • LLM-Based Instruction Following: 使用GPT-4o的LLM-Based Instruction Following方法表现出色,成功率(SR)达到90.82%,成功加权路径长度(SPL)也达到90.82%。失败案例主要是由于障碍物阻挡导致机器人未能在60度水平视野内看到目标对象。

  • VLM Zero-Shot: 所有VLM模型的表现较低,表明在zero-shot设置下,VLM仍难以仅通过直接观察和动作生成来实现目标。

机动操作

  • LLM-Based Instruction Following: GPT-4o保持了最高性能,但由于更高的动作精度,Chat-GLM4在成功率上优于Qwen。

  • VLM Zero-Shot: VLM模型在移动和操作任务中面临挑战,不仅难以到达目标,而且很难确定是否可以抓取物体。

场景图协作构建

  • Co-NavGPT: 使用GPT-4的Co-NavGPT方法表现最佳,可能得益于Prompt设计的优势。

开放世界社交移动操作

  • Hierarchical Interaction: 使用VLM直接输出离散动作时,成功率(SR)为0。引入额外的动作原语后,进一步规划实验仍未能显著提高成功率。

  • Horizontal Interaction: 结果显示,由于任务构建中使用的语义信息过于粗糙,导致任务失败。

总结

论文提出了InfiniteWorld,一个基于NVIDIA Isaac Sim的统一且可扩展的模拟器,用于通用视觉-语言机器人交互。

InfiniteWorld提供了丰富的3D资产构建接口,支持场景和对象资产的无限扩展,并建立了全面的机器人交互基准,以综合评估具身智能体在感知、规划、执行和交互方面的能力。

相关推荐
yzx99101322 分钟前
opencv图像基础学习
人工智能·opencv·计算机视觉
是Dream呀1 小时前
深度学习在文本情感分析中的应用
人工智能·深度学习
游客5201 小时前
图像处理|闭运算
图像处理·人工智能·python·opencv·计算机视觉
wit_@1 小时前
深入了解卷积神经网络(CNN):图像处理与深度学习的革命性技术
python·深度学习·机器学习·cnn·scikit-learn
道友老李5 小时前
【机器学习】Kaggle实战Rossmann商店销售预测(项目背景、数据介绍/加载/合并、特征工程、构建模型、模型预测)
人工智能·机器学习
Seeklike7 小时前
初识NLP
人工智能·自然语言处理
GISer_Jing7 小时前
LLM(大语言模型)支撑下的传统工作流转型发展为AI工作流
人工智能·语言模型·自然语言处理
2401_898200608 小时前
2023 Google开发者大会:你了解机器学习的新动向吗?
人工智能·机器学习
给我一个接口8 小时前
Ubuntu20.04复现GraspNet全记录(含遇到的问题及解决方法
机器人·机械臂
Dong雨9 小时前
快速入门:如何注册并使用GPT
人工智能·chatgpt