演示 AutoRT 向多个建筑物中的20 多个机器人提出指令 ,并通过远程操作和自主机器人策略收集77,000个真实的机器人事件。实验表明,AutoRT 收集的此类"野外"数据明显更加多样化,并且 AutoRT 使用 LLMs 允许遵循能够符合人类偏好的数据收集机器人的指令。
论文网址: https://huggingface.co/papers/2401.12963
结合了语言、视觉和最近的行动的基础模型彻底改变了利用互联网规模数据来推理有用任务的能力。然而,训练具体基础模型的关键挑战之一是缺乏基于物理世界的数据。在本文中,我们提出了 AutoRT,这是一个利用现有基础模型在完全看不见的场景中以最少的人工监督来扩大操作机器人部署的系统。
AutoRT 利用视觉语言模型 (VLM) 进行场景理解和基础,并进一步使用大型语言模型 (LLMs) 提出由一组机器人执行的多样化且新颖的指令。通过利用基础模型的知识来指导数据收集,使 AutoRT 能够有效地推理自主权衡和安全性,同时显着扩大机器人学习的数据收集范围。
视频演示了 AutoRT 向多个建筑物中的20多个机器人提出指令,并通过远程操作和自主机器人策略收集77,000个真实的机器人事件。通过实验表明,AutoRT 收集的此类"野外"数据明显更加多样化,并且 AutoRT 使用 LLMs 允许遵循能够符合人类偏好的数据收集机器人的指令。
AutoRT的功能主要是能够收集到大量真实的机器人事件,这些事件可以用于训练和改进机器人的自主权衡和安全性。
应用于各种需要自主操作机器人的场景,例如:
- **物流和运输:**机器人可以在仓库中自动搬运物品,或在运输途中自动规划最佳路线。
- **制造业:**在制造业中,机器人可以自动完成生产线上的任务,提高生产效率和产品质量。
- **医疗服务:**在医疗领域,机器人可以协助医生进行手术操作,或为病人提供日常护理服务。
- **灾害救援:**在灾难发生时,机器人可以进入危险区域进行搜索和救援任务,帮助救援人员减少风险。
总之,AutoRT模型的应用场景非常广泛,可以帮助机器人更好地适应各种环境和任务需求,提高机器人的自主性和智能性。