论文阅读《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》

目录

这篇论文《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》由Cheng Chi等人提出,旨在解决机器人模仿学习中的关键挑战。

code实现位于diffusion_policy

一、研究动机

传统的机器人视觉运动策略(visuomotor policy)通常将观察映射为动作,采用监督回归的方式。但在实际应用中存在三大挑战:

  1. 多模态动作分布:同一状态下可能有多种正确动作(如绕过障碍物的左右路径);
  2. 高维动作空间:特别是预测动作序列时,维度高、依赖性强;
  3. 训练不稳定性:尤其是基于能量模型(EBM)的隐式策略,难以训练且易崩溃。

为此,作者提出Diffusion Policy ,将机器人策略建模为条件去噪扩散过程,从而继承扩散模型在生成任务中的优势。

二、方法创新性

1 基于扩散过程的策略表示

  • 将动作生成视为随机 Langevin 动力学的去噪过程;
  • 从高斯噪声开始,逐步去噪得到动作序列;
  • 模型学习的是动作得分函数的梯度,而非直接输出动作。

2 关键设计贡献

  • 闭环动作序列预测:结合滚动时域控制(receding horizon control),在保持时间一致性的同时实现闭环响应;
  • 视觉条件化:将视觉观察作为条件输入,而非联合分布的一部分,显著提升推理效率;
  • 时间序列扩散 Transformer:提出基于 Transformer 的去噪网络,解决 CNN 模型在高频动作变化中的过平滑问题。

3 训练稳定性

  • 与隐式策略(如 IBC)不同,Diffusion Policy 无需估计难解的归一化常数,训练过程更稳定,超参数通用性强。

三、实验与结果

1 仿真实验

  • 15 个任务、4 个基准(如 Robomimic、Push-T、Kitchen 等)上进行评估;
  • 平均成功率提升 46.9%,显著优于 LSTM-GMM、IBC、BET 等主流方法;
  • 在多模态动作建模、长时序任务、高精度控制等场景中均表现出色。

2 真实世界实验

  • Push-T、酱汁倒/铺、杯子翻转、双人任务(打蛋器、铺垫子、叠衣服) 等任务中验证;
  • 成功率接近人类水平(如 Push-T 成功率 95%);
  • 展现出对视觉遮挡、物体移动等扰动的鲁棒性。

3 关键发现

  • 位置控制优于速度控制:Diffusion Policy 能更好利用位置控制的优势;
  • 动作预测长度需权衡:过长影响响应速度,过短影响一致性;
  • 端到端视觉训练优于预训练模型(如 R3M、ImageNet)。

四、结论与展望

Diffusion Policy 是一种稳定、表达力强、适用于高维动作空间的机器人策略表示方法,在多个仿真和真实任务中均显著超越现有方法。未来工作可结合强化学习、加速推理、更高效的噪声调度等方向进一步优化。

相关推荐
m0_650108245 小时前
LoRA:大语言模型低秩适配
论文阅读·lora·大模型微调·经典方法
byzy5 小时前
【论文笔记】Vehicle-to-Everything Cooperative Perception for Autonomous Driving
论文阅读·深度学习·计算机视觉·自动驾驶
传说故事5 小时前
【论文阅读】Fast-WAM: Do World Action Models Need Test-time Future Imagination?
论文阅读·具身智能·vla
传说故事6 小时前
【论文阅读】StarVLA-α: Reducing Complexity in Vision-Language-Action Systems
论文阅读·人工智能·具身智能·vla
大模型最新论文速读7 小时前
RACER:无需训练,让大模型推理速度翻倍
论文阅读·人工智能·深度学习·机器学习·自然语言处理
传说故事8 小时前
【论文阅读】RADAR:通过语义规划与自主因果环境重置的闭环机器人数据生成
论文阅读·人工智能·机器人·具身智能
传说故事1 天前
【论文阅读】ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
论文阅读·人工智能·强化学习·具身智能
joker_sxj1 天前
论文阅读-DeepSeek-mHC
论文阅读·算法
传说故事1 天前
【论文阅读】RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis
论文阅读·人工智能·具身智能