论文阅读《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》

YMWM_2026-04-23 15:25

目录

- 一、研究动机
- 二、方法创新性
- - [1 基于扩散过程的策略表示](#1 基于扩散过程的策略表示)
  - [2 关键设计贡献](#2 关键设计贡献)
  - [3 训练稳定性](#3 训练稳定性)
- 三、实验与结果
- - [1 仿真实验](#1 仿真实验)
  - [2 真实世界实验](#2 真实世界实验)
  - [3 关键发现](#3 关键发现)
- 四、结论与展望

这篇论文《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》由Cheng Chi等人提出，旨在解决机器人模仿学习中的关键挑战。

code实现位于diffusion_policy。

一、研究动机

传统的机器人视觉运动策略（visuomotor policy）通常将观察映射为动作，采用监督回归的方式。但在实际应用中存在三大挑战：

多模态动作分布：同一状态下可能有多种正确动作（如绕过障碍物的左右路径）；
高维动作空间：特别是预测动作序列时，维度高、依赖性强；
训练不稳定性：尤其是基于能量模型（EBM）的隐式策略，难以训练且易崩溃。

为此，作者提出Diffusion Policy ，将机器人策略建模为条件去噪扩散过程，从而继承扩散模型在生成任务中的优势。

二、方法创新性

1 基于扩散过程的策略表示

将动作生成视为随机 Langevin 动力学的去噪过程；
从高斯噪声开始，逐步去噪得到动作序列；
模型学习的是动作得分函数的梯度，而非直接输出动作。

2 关键设计贡献

闭环动作序列预测：结合滚动时域控制（receding horizon control），在保持时间一致性的同时实现闭环响应；
视觉条件化：将视觉观察作为条件输入，而非联合分布的一部分，显著提升推理效率；
时间序列扩散 Transformer：提出基于 Transformer 的去噪网络，解决 CNN 模型在高频动作变化中的过平滑问题。

3 训练稳定性

与隐式策略（如 IBC）不同，Diffusion Policy 无需估计难解的归一化常数，训练过程更稳定，超参数通用性强。

三、实验与结果

1 仿真实验

在 15 个任务、4 个基准（如 Robomimic、Push-T、Kitchen 等）上进行评估；
平均成功率提升 46.9%，显著优于 LSTM-GMM、IBC、BET 等主流方法；
在多模态动作建模、长时序任务、高精度控制等场景中均表现出色。

2 真实世界实验

在 Push-T、酱汁倒/铺、杯子翻转、双人任务（打蛋器、铺垫子、叠衣服） 等任务中验证；
成功率接近人类水平（如 Push-T 成功率 95%）；
展现出对视觉遮挡、物体移动等扰动的鲁棒性。

3 关键发现

位置控制优于速度控制：Diffusion Policy 能更好利用位置控制的优势；
动作预测长度需权衡：过长影响响应速度，过短影响一致性；
端到端视觉训练优于预训练模型（如 R3M、ImageNet）。

四、结论与展望

Diffusion Policy 是一种稳定、表达力强、适用于高维动作空间的机器人策略表示方法，在多个仿真和真实任务中均显著超越现有方法。未来工作可结合强化学习、加速推理、更高效的噪声调度等方向进一步优化。

上一篇：智慧工地图像识别数据集工地裸土未覆盖图像识别数据集工地环保扬尘识别 yolo工地图像识别数据集10289期

下一篇：C语言上机入门实例

热门推荐

01GitHub 镜像站点 022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03Codex 下载安装指南：Windows 和 macOS 官方版下载 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05【AI】2026 年具身智能模型和世界模型总结 06Codex 桌面端更新后 Chrome 插件和 Computer Use 不可用，怎么排查和修复 07CC-Switch 下载、安装与使用配置指南【2026.5.29】08裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 09CC-Switch & Claude 基于 Linux 服务器安装使用指南 10Codex 接入 DeepSeek API 完整配置文档