目录
这篇论文《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》由Cheng Chi等人提出,旨在解决机器人模仿学习中的关键挑战。
code实现位于diffusion_policy。
一、研究动机
传统的机器人视觉运动策略(visuomotor policy)通常将观察映射为动作,采用监督回归的方式。但在实际应用中存在三大挑战:
- 多模态动作分布:同一状态下可能有多种正确动作(如绕过障碍物的左右路径);
- 高维动作空间:特别是预测动作序列时,维度高、依赖性强;
- 训练不稳定性:尤其是基于能量模型(EBM)的隐式策略,难以训练且易崩溃。
为此,作者提出Diffusion Policy ,将机器人策略建模为条件去噪扩散过程,从而继承扩散模型在生成任务中的优势。
二、方法创新性
1 基于扩散过程的策略表示
- 将动作生成视为随机 Langevin 动力学的去噪过程;
- 从高斯噪声开始,逐步去噪得到动作序列;
- 模型学习的是动作得分函数的梯度,而非直接输出动作。
2 关键设计贡献
- 闭环动作序列预测:结合滚动时域控制(receding horizon control),在保持时间一致性的同时实现闭环响应;
- 视觉条件化:将视觉观察作为条件输入,而非联合分布的一部分,显著提升推理效率;
- 时间序列扩散 Transformer:提出基于 Transformer 的去噪网络,解决 CNN 模型在高频动作变化中的过平滑问题。
3 训练稳定性
- 与隐式策略(如 IBC)不同,Diffusion Policy 无需估计难解的归一化常数,训练过程更稳定,超参数通用性强。
三、实验与结果
1 仿真实验
- 在 15 个任务、4 个基准(如 Robomimic、Push-T、Kitchen 等)上进行评估;
- 平均成功率提升 46.9%,显著优于 LSTM-GMM、IBC、BET 等主流方法;
- 在多模态动作建模、长时序任务、高精度控制等场景中均表现出色。
2 真实世界实验
- 在 Push-T、酱汁倒/铺、杯子翻转、双人任务(打蛋器、铺垫子、叠衣服) 等任务中验证;
- 成功率接近人类水平(如 Push-T 成功率 95%);
- 展现出对视觉遮挡、物体移动等扰动的鲁棒性。
3 关键发现
- 位置控制优于速度控制:Diffusion Policy 能更好利用位置控制的优势;
- 动作预测长度需权衡:过长影响响应速度,过短影响一致性;
- 端到端视觉训练优于预训练模型(如 R3M、ImageNet)。
四、结论与展望
Diffusion Policy 是一种稳定、表达力强、适用于高维动作空间的机器人策略表示方法,在多个仿真和真实任务中均显著超越现有方法。未来工作可结合强化学习、加速推理、更高效的噪声调度等方向进一步优化。