【论文阅读】DATA SCALING LAWS IN IMITATION LEARNING FOR ROBOTIC MANIPULATION

快速了解部分

题目: DATA SCALING LAWS IN IMITATION LEARNING FOR ROBOTIC MANIPULATION
时间: 2025.01 (ICLR 2025)
机构: Tsinghua University, Shanghai Qi Zhi Institute, Shanghai Artificial Intelligence Laboratory
3个英文关键词: Data Scaling Laws, Imitation Learning, Generalization

作者通过收集海量机器人操作数据，发现并验证了数据 scaling law，证明了只要收集足够多样的环境和物体数据，简单的模仿学习就能让机器人学会零样本泛化。

现在的机器人策略往往缺乏"零样本泛化"能力，即在一个实验室环境里学会了倒水，换个杯子或者换个房间就废了。业界不知道如何像NLP领域那样，通过扩大数据规模来系统性地提升机器人的泛化能力。

作者没有发明新模型，而是使用 Diffusion Policy ，系统性地改变训练数据的三个维度（环境数量、物体数量、演示次数），通过超过4万次真实世界实验，总结出了机器人泛化的"幂律定律"。

作者想表达的核心观点是：在机器人模仿学习中，数据的"多样性"远比单纯的"数量"重要。 只要你在足够多样的环境（比如32个）和物体（比如32种）上收集数据，哪怕每个场景只做几十次演示，机器人也能学会在全新的环境里操作没见过的物体。

前人往往在单一环境或少量物体上训练，或者追求"多任务"泛化。本文的创新在于：

这就像是教小孩倒水。传统方法是让小孩在一个固定位置练1000次。本文的方法是：带小孩去10个不同的厨房（环境），用10种不同的瓶子（物体），各练5次。作者发现，后者更能培养出"换个厨房也能倒水"的能力。

exp1: 物体泛化实验

设置：固定环境，改变训练物体数量（从1个到32个），测试在没见过的物体上的表现。

数据：倒水和整理鼠标两个任务，每个物体收集120次演示。

结论：物体泛化很容易，只要训练物体达到8个，得分就超过0.8；达到32个，得分超0.9。

exp2: 环境泛化实验

设置：固定物体，改变训练环境数量（从1个房间到32个房间），测试在新房间的表现。

数据：同样收集了数千次演示。

结论：环境泛化比物体泛化难，但依然遵循幂律。增加环境数量显著提升泛化能力，但增加演示次数带来的提升会很快饱和。

exp3: 联合泛化与策略验证

设置：在32个不同环境-物体对上收集数据（每个环境一个独特物体），验证高效采集策略。

数据：每个任务收集约1600次演示（32环境 x 50次）。

结论：仅用4个采集员一下午的时间，训练出的策略在新任务（叠毛巾、拔充电器）上达到了约90%的成功率。

Scaling Laws for Neural Language Models(2020)基础理论参考

OpenX-Embodiment(2023)数据集规模对比

RT-1 / RT-2(2022/2023)VLA模型对比

Dinov2: Learning robust visual features without supervision(2023)作为本文视觉编码器的基础

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(2023)作为本文策略模型的基础

Universal Manipulation Interface: In-the-wild Robot Teaching without in-the-wild Robots(2024)作为本文数据采集方法的基础