谷歌推出 AutoRT 机器人代理大规模编排的具体基础模型，远程操作和收集 77,000 个机器人事件

演示 AutoRT 向多个建筑物中的20 多个机器人提出指令 ，并通过远程操作和自主机器人策略收集77,000个真实的机器人事件。实验表明，AutoRT 收集的此类"野外"数据明显更加多样化，并且 AutoRT 使用 LLMs 允许遵循能够符合人类偏好的数据收集机器人的指令。

结合了语言、视觉和最近的行动的基础模型彻底改变了利用互联网规模数据来推理有用任务的能力。然而，训练具体基础模型的关键挑战之一是缺乏基于物理世界的数据。在本文中，我们提出了 AutoRT，这是一个利用现有基础模型在完全看不见的场景中以最少的人工监督来扩大操作机器人部署的系统。

AutoRT 利用视觉语言模型 (VLM) 进行场景理解和基础，并进一步使用大型语言模型 (LLMs) 提出由一组机器人执行的多样化且新颖的指令。通过利用基础模型的知识来指导数据收集，使 AutoRT 能够有效地推理自主权衡和安全性，同时显着扩大机器人学习的数据收集范围。

视频演示了 AutoRT 向多个建筑物中的20多个机器人提出指令，并通过远程操作和自主机器人策略收集77,000个真实的机器人事件。通过实验表明，AutoRT 收集的此类"野外"数据明显更加多样化，并且 AutoRT 使用 LLMs 允许遵循能够符合人类偏好的数据收集机器人的指令。

AutoRT的功能主要是能够收集到大量真实的机器人事件，这些事件可以用于训练和改进机器人的自主权衡和安全性。

应用于各种需要自主操作机器人的场景，例如：

总之，AutoRT模型的应用场景非常广泛，可以帮助机器人更好地适应各种环境和任务需求，提高机器人的自主性和智能性。