论文阅读《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》

目录

这篇论文《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》由Cheng Chi等人提出,旨在解决机器人模仿学习中的关键挑战。

code实现位于diffusion_policy

一、研究动机

传统的机器人视觉运动策略(visuomotor policy)通常将观察映射为动作,采用监督回归的方式。但在实际应用中存在三大挑战:

  1. 多模态动作分布:同一状态下可能有多种正确动作(如绕过障碍物的左右路径);
  2. 高维动作空间:特别是预测动作序列时,维度高、依赖性强;
  3. 训练不稳定性:尤其是基于能量模型(EBM)的隐式策略,难以训练且易崩溃。

为此,作者提出Diffusion Policy ,将机器人策略建模为条件去噪扩散过程,从而继承扩散模型在生成任务中的优势。

二、方法创新性

1 基于扩散过程的策略表示

  • 将动作生成视为随机 Langevin 动力学的去噪过程;
  • 从高斯噪声开始,逐步去噪得到动作序列;
  • 模型学习的是动作得分函数的梯度,而非直接输出动作。

2 关键设计贡献

  • 闭环动作序列预测:结合滚动时域控制(receding horizon control),在保持时间一致性的同时实现闭环响应;
  • 视觉条件化:将视觉观察作为条件输入,而非联合分布的一部分,显著提升推理效率;
  • 时间序列扩散 Transformer:提出基于 Transformer 的去噪网络,解决 CNN 模型在高频动作变化中的过平滑问题。

3 训练稳定性

  • 与隐式策略(如 IBC)不同,Diffusion Policy 无需估计难解的归一化常数,训练过程更稳定,超参数通用性强。

三、实验与结果

1 仿真实验

  • 15 个任务、4 个基准(如 Robomimic、Push-T、Kitchen 等)上进行评估;
  • 平均成功率提升 46.9%,显著优于 LSTM-GMM、IBC、BET 等主流方法;
  • 在多模态动作建模、长时序任务、高精度控制等场景中均表现出色。

2 真实世界实验

  • Push-T、酱汁倒/铺、杯子翻转、双人任务(打蛋器、铺垫子、叠衣服) 等任务中验证;
  • 成功率接近人类水平(如 Push-T 成功率 95%);
  • 展现出对视觉遮挡、物体移动等扰动的鲁棒性。

3 关键发现

  • 位置控制优于速度控制:Diffusion Policy 能更好利用位置控制的优势;
  • 动作预测长度需权衡:过长影响响应速度,过短影响一致性;
  • 端到端视觉训练优于预训练模型(如 R3M、ImageNet)。

四、结论与展望

Diffusion Policy 是一种稳定、表达力强、适用于高维动作空间的机器人策略表示方法,在多个仿真和真实任务中均显著超越现有方法。未来工作可结合强化学习、加速推理、更高效的噪声调度等方向进一步优化。

相关推荐
cqbzcsq7 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
凌晨一点的秃头猪7 天前
论文阅读 GTI(Graph-based Tree Index): 面向高维空间最近邻搜索的动态图-树混合索引结构
论文阅读
有Li7 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
大模型最新论文速读7 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
墨绿色的摆渡人7 天前
论文笔记(一百三十七)Learning Dual-Arm Push and Grasp Synergy in Dense Clutter
arm开发·论文阅读
Chunyyyen8 天前
【第四十九周】论文阅读
论文阅读
Biomamba生信基地8 天前
NC | 单细胞分析揭示头颈部癌早期转移过程中潜在的免疫逃逸机制(R语言版本)
论文阅读·生物信息学·单细胞rna测序
大模型最新论文速读8 天前
06-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·自然语言处理
小马哥crazymxm8 天前
Arxiv论文周选 (2026-W24)
论文阅读·人工智能·考研
大模型最新论文速读8 天前
TRUST:RL 时保留模型的不确定性,效果提升 8%
论文阅读·人工智能·深度学习·机器学习·自然语言处理