【论文阅读】Yell At Your Robot: Improving On-the-Fly from Language Corrections

快速了解部分

1.题目: Yell At Your Robot: Improving On-the-Fly from Language Corrections

2.时间: 2024.03

3.机构: Stanford University, UC Berkeley

4.3个英文关键词: Language Corrections, Hierarchical Policies, Continuous Improvement

让机器人通过听懂人类的语言来实时调整动作，并利用这些反馈数据自我迭代升级，从而在不增加昂贵遥操作成本的情况下，搞定复杂的长程双手机械臂任务。

长程任务容错率低：任务步骤越长，出错概率指数级上升，低级策略（Low-level Policy）容易出错，而训练能容错的高级策略（High-level Policy）需要大量涵盖各种错误场景的演示数据，收集成本极高。
现有方法的局限：直接模仿学习（如DAgger）需要人类亲自上手遥操作纠正，太累人；利用大模型（LLM/VLM）做规划虽然不用演示，但缺乏物理 grounding，容易给出不切实际的指令（比如让机器人"把已经在袋子里的海绵放进去"）。

YAY Robot：一个分层系统。

作者想证明：自然语言是连接人类直觉与机器人底层物理控制的最佳桥梁。

不需要昂贵的全任务演示，也不需要完全依赖虚幻的大模型，只要让普通人能"骂"机器人，机器人就能利用这些"骂声"学会如何处理复杂任务中的各种幺蛾子。

想象你在教一个聋哑但手很巧的徒弟（机器人）干活。

以前的方法：你要么得手把手帮他做一遍（遥操作），要么得自己写一本《遇到xx情况该怎么做》的说明书（大模型提示工程）。
YAY Robot的方法：你只需要在他做错时大喊一句"往左一点！"或者"换个姿势！"。他听了之后，先照做（实时调整），然后默默记住"下次遇到这种情况，我应该用这个动作"（策略微调）。久而久之，他就学会了自己判断什么时候该做什么。

ACT (Action Chunking with Transformers)：用于底层策略，这是目前模仿学习里的SOTA模型，擅长处理高维动作。
DAgger (Dataset Aggregation)：核心的模仿学习算法，YAY Robot本质上是把DAgger搬到了语言空间（Language Space）上，而不是动作空间上。
CLIP / ViT：用于视觉和语言的编码，让机器人能看懂画面并理解语言指令的语义。

硬件：ALOHA双手机械臂。
任务：三个超难的长程任务------装袋（Bag Packing）、做什锦果仁（Trail Mix）、洗盘子（Plate Cleaning）。这些任务涉及透明物体、软体操作，非常容易失败。
对比：
- Base Policy（基础策略）：成功率很低（约15%）。
- YAY Robot + 人工喊话：成功率飙升到50%左右，证明语言反馈能救命。
- YAY Robot（微调后）：成功率提升到45%左右，证明机器人真的学会了，不需要人类一直盯着喊了。
结论：这种方法能把成功率提升3倍以上，且显著优于纯脚本（Scripted）或纯GPT-4V控制的方案。

分为高低两层。高层策略用于输出语言。底层策略用于输出action。

主要实现的功能是机器人在推理时可以语言介入，然后底层策略会按照语言指示运行，完成任务。这个介入的语言会存下来用来训高层策略，在下次遇到相同情况的时候就能发出同样的介入语言了。

问题在于如何让底层策略能够按照语言指示运行？文章方法是采集员在采集时就说出对应操作，把话也录进去了，而且还针对机器人做不好的地方去录制纠正指令。