使用大语言模型进行机器人规划（Robot planning with LLMs）

李升伟编译

长期规划在机器人学领域可以从经典控制方法与大型语言模型在现实世界知识能力的结合中获益。

在20世纪80年代，机器人学和人工智能（AI）领域的专家提出了莫雷奇悖论，观察到人类看似简单的涉及移动和感知的任务，如开门或倒咖啡，对机器人来说是计算密集型的挑战。相比之下，人类认为认知上更复杂的任务，如下棋，对AI来说却容易得多。尽管几十年的发展，设计能够执行真实世界任务和环境的机器人仍然具有挑战性。在机器人物理能力的持续进步中，更好的传感器和执行器的可用性，以及基于数据驱动的方法来控制和预测行动结果，已经取得了进展。然而，现实任务通常涉及许多需要同时和依次执行的物理动作，这需要长期规划。

过去十年，深度学习迅速发展，并在机器人规划应用中展现出巨大的潜力。以安德鲁·巴托（Andrew Barto）和理查德·斯隆（Richard Sutton）为2024年图灵奖获奖者之一的强化学习，是AI学习和规划最成功的框架之一，并广泛应用于机器人学。2019年，OpenAI利用深度强化学习从头开始训练了一个机器人手，使其能够模拟操作魔方，并将学到的控制能力转移到实际的机器人手中。Hafner等人最近展示了在这个领域仍然有可能取得令人印象深刻的进展。仅使用视觉信息和复杂长时规划任务的稀疏奖励，在视频游戏中，他们开发了一种名为Dreamer的方法，该方法能够预测环境潜在行动的结果，而无需针对每个单独的游戏进行精细调整，范围从Atari游戏、机器人模拟到视频游戏Minecraft。

然而，将能力转移到现实世界的机器人学仍然是一个挑战。潜在的解决方案之一是利用基础模型，这些模型通过在不同来源的大量弱标签数据上预训练大型深度学习模型来构建。社区项目，如Open X-Embodiment倡议，收集了大量的真实世界机器人数据，旨在训练机器人视觉语言模型（VLMs，LLMs的扩展）。这种模型的一个早期版本，PaLM-SayCan，通过机器人收集的数据对LLM的强化学习组件进行微调，以增强对实际可行的工具和动作的预测，从而提高了生成运动计划的成功率。

受PaLM-SayCan模型启发的后续工作使用了如GPT-4这样的LLMs，展示了令人印象深刻的演示。然而，将机器人控制权交给LLM存在缺点，包括幻觉和潜在的安全风险。GPT-4等模型发送请求的速度和频率也有限。如果没有精心设计的提示和可用的数据，即使是强大的LLMs也可能陷入循环步骤或"过度思考"问题的陷阱。这种效应在Anthropic AI运行的一个实验中得到了展示，在这个实验中，一个LLM代理试图玩Pokemon，并同时表现出似乎令人印象深刻的推理能力，但同时也陷入了简单的障碍。

采取不同的途径，本文中提出了一种名为ELLMER的框架，由鲁阿迪·蒙-威廉斯等人开发，该框架将由LLM执行的高层规划与实际控制机器人分离。该方法使灵活和反应式的本体规划成为可能，将AI和传感器运动能力结合，以响应复杂甚至模糊的用户请求来控制机器人操作器。通过用户的自然语言请求和使用图像反馈，LLM生成基于示例的Python代码，这些示例包括对象识别和力反馈传感工具，以控制机器人下一步的动作。作为示例任务之一，研究人员告诉机器人他们感到疲倦，并要求它制作热饮并在盘子上装饰动物。查询故意不直接或清晰，但GPT-4推断任务是制作咖啡，并计划首先找到一个杯子。在演示中，机器人依次打开橱柜，找到杯子，放下杯子，加入速溶咖啡粉，并将水倒入杯子，而人类在此过程中已经移动了杯子。由于每一步生成的代码本身并不依赖于与LLM的进一步交互，它允许机器人响应视觉和力信息------例如，当人类轻推机器人时。当机器人需要对意外的新情况作出反应时，如人类发出进一步的命令，LLM可能可以再次被联系以适应变化的情况。

随着LLMs和VLMs的快速进步，过去几年见证了本体AI（embodied AI）的爆炸性兴趣。本体AI的有前景的下一步是终生学习，这对机器人来说尤为重要，如果它们打算在现实世界中长时间成功运行。结合LLMs、VLMs与传统方法可以构建出稳健的本体AI系统。

原文引用：Robot planning with LLMs. Nat Mach Intell 7, 521 (2025). https://doi.org/10.1038/s42256-025-01036-4