论文阅读《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》

目录

这篇论文《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》由Cheng Chi等人提出,旨在解决机器人模仿学习中的关键挑战。

code实现位于diffusion_policy

一、研究动机

传统的机器人视觉运动策略(visuomotor policy)通常将观察映射为动作,采用监督回归的方式。但在实际应用中存在三大挑战:

  1. 多模态动作分布:同一状态下可能有多种正确动作(如绕过障碍物的左右路径);
  2. 高维动作空间:特别是预测动作序列时,维度高、依赖性强;
  3. 训练不稳定性:尤其是基于能量模型(EBM)的隐式策略,难以训练且易崩溃。

为此,作者提出Diffusion Policy ,将机器人策略建模为条件去噪扩散过程,从而继承扩散模型在生成任务中的优势。

二、方法创新性

1 基于扩散过程的策略表示

  • 将动作生成视为随机 Langevin 动力学的去噪过程;
  • 从高斯噪声开始,逐步去噪得到动作序列;
  • 模型学习的是动作得分函数的梯度,而非直接输出动作。

2 关键设计贡献

  • 闭环动作序列预测:结合滚动时域控制(receding horizon control),在保持时间一致性的同时实现闭环响应;
  • 视觉条件化:将视觉观察作为条件输入,而非联合分布的一部分,显著提升推理效率;
  • 时间序列扩散 Transformer:提出基于 Transformer 的去噪网络,解决 CNN 模型在高频动作变化中的过平滑问题。

3 训练稳定性

  • 与隐式策略(如 IBC)不同,Diffusion Policy 无需估计难解的归一化常数,训练过程更稳定,超参数通用性强。

三、实验与结果

1 仿真实验

  • 15 个任务、4 个基准(如 Robomimic、Push-T、Kitchen 等)上进行评估;
  • 平均成功率提升 46.9%,显著优于 LSTM-GMM、IBC、BET 等主流方法;
  • 在多模态动作建模、长时序任务、高精度控制等场景中均表现出色。

2 真实世界实验

  • Push-T、酱汁倒/铺、杯子翻转、双人任务(打蛋器、铺垫子、叠衣服) 等任务中验证;
  • 成功率接近人类水平(如 Push-T 成功率 95%);
  • 展现出对视觉遮挡、物体移动等扰动的鲁棒性。

3 关键发现

  • 位置控制优于速度控制:Diffusion Policy 能更好利用位置控制的优势;
  • 动作预测长度需权衡:过长影响响应速度,过短影响一致性;
  • 端到端视觉训练优于预训练模型(如 R3M、ImageNet)。

四、结论与展望

Diffusion Policy 是一种稳定、表达力强、适用于高维动作空间的机器人策略表示方法,在多个仿真和真实任务中均显著超越现有方法。未来工作可结合强化学习、加速推理、更高效的噪声调度等方向进一步优化。

相关推荐
CanCanCanedFish9 小时前
Transformer论文阅读笔记:从注意力机制到革命性架构的启示
论文阅读·笔记·transformer
大模型最新论文速读13 小时前
06-02 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Rocky Ding*2 天前
深入浅出完整解析AIGC时代中GAN(Generative Adversarial Network)系列模型核心基础知识(下篇)
论文阅读·人工智能·深度学习·机器学习·aigc·gan·ai-native
chnyi6_ya3 天前
论文阅读笔记|Wan: Open and Advanced Large-Scale Video Generative Models
论文阅读·笔记
chnyi6_ya3 天前
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
论文阅读·深度学习·transformer
大模型最新论文速读4 天前
SkillOpt:把 skill 文档当成模型权重来训练
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Cloud_Shy6184 天前
解读《Effective Python 3rd Edition》:从练气到老魔(第一章 Item 4 - 6)
android·数据库·论文阅读·python
Rocky Ding*4 天前
一文读懂HiDream-I1稀疏 DiT 图像生成基础模型
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
锅挤4 天前
来一篇儿:《anish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2》
论文阅读
大模型最新论文速读5 天前
05-29 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理