具身智能论文精读（四）：Diffusion Policy

注：时间紧大部分为ai翻译

Abstract

本文提出扩散策略（Diffusion Policy），一种全新的机器人行为生成范式：将机器人视觉运动策略建模为条件去噪扩散过程。本文在 4 套机器人操作基准测试集、共计 12 项不同任务上对扩散策略开展全面基准评测，结果表明：该方法性能持续超越现有业界最优机器人学习算法，平均性能提升达46.9% 。扩散策略学习动作分布得分函数的梯度，推理阶段通过多步随机朗之万动力学 沿该梯度场迭代优化输出动作。研究发现，将扩散模型范式用于机器人策略建模具备显著优势：可平稳处理多模态动作分布 、适配高维动作空间 ，同时拥有极佳的训练稳定性。为充分释放扩散模型在实体机器人视觉运动策略学习中的应用潜力，本文作出多项关键技术贡献：融合滚动时域控制 、引入视觉条件约束 ，并提出时序扩散 Transformer架构。本研究有望推动新一代策略学习技术发展，充分发挥扩散模型强大的生成建模能力。

1.介绍

模仿学习，其最简形式可被建模为从观测到动作的监督回归任务 。然而在实际应用中，机器人动作预测的独特属性 ------ 如多模态分布 、时序相关性 以及高精度要求------ 使得该任务与其他监督学习问题相比，具有显著的独特性与挑战性。

已有研究主要从两条思路攻克这一难题：一是设计不同的动作表征方式 （图 1a），例如采用高斯混合模型 、离散量化动作的类别化表征 ；二是更换策略表征范式 （图 1b），从显式策略 转为隐式策略，从而更好地拟合多模态动作分布。

本文针对上述难题，提出一种全新的机器人视觉运动策略：在机器人动作空间上构建条件去噪扩散过程 ，并将该方法命名为扩散策略（Diffusion Policy） 。该建模框架不再直接输出动作，而是以视觉观测为条件，学习动作得分梯度 ，并经过 K 步去噪迭代 推理得到最终动作（图 1c）。这种建模方式让机器人策略天然继承了扩散模型的多项优良特性，实现了性能的显著提升。

具备多模态动作分布表达能力。 扩散策略通过学习动作得分函数梯度 ，并在该梯度场上执行随机朗之万动力学采样 ，能够表征任意可归一化概率分布，自然涵盖多模态动作分布------ 而这正是传统策略学习长期面临的一大难题。
适配高维输出空间。 扩散模型在图像生成任务中已展现出极强的高维输出空间扩展能力。借助这一特性，本策略可一次性推理未来一段时序动作序列，而非仅输出单步动作；这对维持动作时序连贯性、规避短视规划问题至关重要。
训练过程稳定。 基于能量的策略训练通常需要负采样来估算难以求解的归一化常数，极易引发训练不稳定问题。扩散策略通过直接学习能量函数梯度，省去负采样环节，在保留分布表达能力的同时，实现了训练过程的高稳定性。

图 1 策略表征方式

a) 采用不同动作表征形式的显式策略 ；b) 隐式策略 以动作和观测为条件学习能量函数，通过最小化能量势场求解最优动作；c) 扩散策略依托学习得到的梯度场，将随机噪声逐步优化精炼为有效动作。该建模范式不仅训练过程稳定，还能精准建模多模态动作分布，同时适配高维动作序列输出。

（a）显式策略（Explicit Policy）

核心逻辑

直接用一个神经网络，输入观测，直接输出动作。

本质：从观测到动作的直接映射
输出形式可以是：
- 标量回归（直接预测连续动作值）
- 高斯混合模型（输出动作的概率分布）
- 分类分布（离散动作场景

典型例子

基础行为克隆（BC）
传统 PPO/SAC 等强化学习策略
早期的机器人控制策略

(b) 隐式策略（Implicit Policy）

核心逻辑

先定义一个能量函数，再通过最小化能量 来得到最优动作：

能量函数：描述「观测和动作的匹配度」，匹配度越高能量越低
推理时：对动作空间做优化，找到能量最低的那个动作
图中的热力图就是能量场，黑色弧线是能量最低的轨迹，也就是策略会生成的动作路径

典型例子

能量基模型（Energy-Based Models, EBMs）
基于对比学习的隐式策略
一些早期的机器人运动规划策略

核心逻辑

这是你现在关注的具身智能 / 机器人领域的 SOTA 方法，本质是：

先定义一个评分函数 / 能量函数
计算梯度场
从随机噪声开始，通过K 次迭代梯度更新 ，把噪声逐步去噪成目标动作

典型例子

你正在用的 RoboTwin 里的 Diffusion Policy
很多具身智能大模型（如 OpenVLA、RT 系列）的动作生成模块

本文的核心创新，是将扩散模型的上述优势引入机器人领域，并在真实复杂的机器人操作任务上验证其实际效果。为将扩散模型有效应用于视觉运动策略学习，本文提出三项关键技术创新，全面提升扩散策略性能，充分释放其在实体机器人平台上的应用潜力：

闭环动作序列生成

结合扩散策略预测高维动作序列的能力与滚动时域控制 思想，实现机器人鲁棒执行。该设计使策略能够以闭环方式持续重规划动作，同时保持动作时序一致性，在长时序规划与实时响应能力之间实现平衡。

视觉条件约束

本文提出视觉条件式扩散策略 ：将视觉观测作为扩散过程的条件输入，而非联合数据分布的组成部分。该范式只需单次提取视觉特征 ，无需在每轮去噪迭代中重复编码，大幅降低计算开销，支撑实时动作推理。

时序扩散 Transformer

本文提出一种全新基于 Transformer 架构的扩散网络，有效缓解传统 CNN 模型普遍存在的过平滑效应；在需要高频动作变化与速度控制的任务中，达到当前最优性能。

本文基于行为克隆框架，在 4 类主流基准测试集、共 12 项机器人任务上对扩散策略开展系统性评测。评测覆盖仿真环境与真实物理环境、2 自由度至 6 自由度动作空间、单任务与多任务基准、全驱动与欠驱动系统；实验对象包含刚体与流体物料，示范数据由单人及多人采集构建。

实验结果表明：扩散策略在所有测试基准上均实现稳定性能提升，平均性能增幅达46.9%，充分验证了该算法的有效性。同时，本文开展细致剖析，系统探究所提算法的固有特性，并论证关键设计方案对模型性能的影响。研究相关代码、数据集与训练配置将全部开源，可供复现实验结果；机器人实操演示视频详见补充材料。

第二章扩散策略建模推导

本文将机器人视觉运动策略建模为去噪扩散概率模型（DDPM）。核心优势在于：扩散策略能够表征复杂的多模态动作分布，且训练过程稳定，几乎无需针对特定任务反复调优超参数。下文将详细介绍 DDPM 基础原理，并阐述如何将其适配用于视觉运动策略建模。

A. 去噪扩散概率模型（DDPM）

DDPM 属于生成式模型，其输出生成过程被建模为逐步去噪过程，该过程通常采用随机朗之万动力学实现。

从高斯噪声中采样初始样本开始，DDPM（去噪扩散概率模型）执行 K 轮去噪迭代 ，生成一系列噪声水平逐步降低的中间动作，直到得到无噪声的目标输出。整个过程遵循如下方程：

其中，是参数为的噪声预测网络 ，将通过学习优化；是每一步迭代中添加的高斯噪声。

上述方程（1）也可以被理解为带噪声的梯度下降单步更新：

其中，噪声预测网络实际上是在预测梯度场，对应梯度下降中的学习率。

将定义为迭代步 k 的函数（也被称为噪声调度 / 噪声计划表 ），可以类比为梯度下降过程中的学习率调度。已有研究表明，取略小于 1 的值能够提升训练稳定性。噪声调度的详细设计将在第 III-C 节展开讨论。

B. DDPM 模型训练

训练过程首先从数据集中随机抽取原始样本。对于每个样本，我们随机选择一个去噪迭代步 k，然后为该迭代步采样一个具有对应方差的随机噪声。噪声预测网络的任务是：根据添加了噪声的数据样本，预测出其中的噪声成分。

如文献所示，最小化公式（3）中的损失函数，等价于最小化真实数据分布与使用公式（1）从 DDPM 中采样得到的分布之间 KL 散度的变分下界。

C. 面向视觉运动策略学习的扩散模型

虽然 DDPM 通常用于图像生成（此时变量代表图像），但我们将其用于学习机器人视觉运动策略。这需要对原公式进行两项关键修改：

将输出变量改为表示机器人动作；
让去噪过程以输入观测为条件。下文将分别讨论这两项修改，整体流程如图 3 所示。

闭环动作序列预测

一个有效的动作建模方式，应当在长时规划中保证动作的时序一致性和平滑性，同时能对意外观测做出快速响应。为实现这一目标，我们将扩散模型预测的动作序列与滚动时域控制 相结合，实现鲁棒的动作执行。具体来说，在时间步t，策略以最近步的观测数据为输入，预测未来步的动作序列，其中仅执行前步动作，之后再重新规划。这里，我们定义：

：观测时域长度
：动作预测时域长度
：动作执行时域长度该设计在保证动作时序一致性的同时，维持了对环境变化的响应能力。关于参数影响的详细讨论见第 IV-C 节。

视觉观测条件约束

我们使用 DDPM 来近似条件分布，而非 Janner 等人在规划任务中使用的联合分布。这种建模方式允许模型直接基于观测预测动作，无需推断未来状态，从而加速扩散过程，并提升生成动作的准确性。为了拟合条件分布，我们将公式（1）修改为：

训练损失函数也从公式（3）修改为：

将观测特征从去噪过程中排除，显著提升了推理速度，更好地支持实时控制，同时也有助于使视觉编码器的端到端训练成为可能。视觉编码器的详细设计将在第 III-B 节中描述。

III. 关键设计决策

本节将介绍扩散策略（Diffusion Policy）的核心设计选择，以及噪声预测网络基于神经网络架构的具体实现。

A. 网络架构选型

首要的设计决策是为噪声预测网络选择合适的神经网络架构。本文研究了两种主流架构：卷积神经网络（CNNs）和 Transformer，并对比了它们的性能与训练特性。需要注意的是，噪声预测网络的选择与视觉编码器相互独立，视觉编码器的细节将在第 III-B 节中介绍。

基于 CNN 的扩散策略

我们采用 Janner 等人提出的一维时序 CNN 架构，并进行了几处关键修改：

仅建模条件分布：通过特征级线性调制（FiLM），让动作生成过程以观测特征和去噪迭代步 k 为条件（如图 3 (b) 所示）；
仅预测动作轨迹，而非观测 - 动作的拼接轨迹；
移除了基于图像修复的目标状态条件化模块，因其与本研究采用的滚动预测时域框架不兼容；但目标条件化仍可通过与观测相同的 FiLM 条件化方法实现。

实践发现，基于 CNN 的主干网络在大多数任务中开箱即用，无需过多超参数调优。但当目标动作序列随时间快速剧烈变化时（如速度指令动作空间），其性能会显著下降 ------ 这可能是由于时序卷积的归纳偏置更倾向于低频信号。

时序扩散 Transformer

为缓解 CNN 模型普遍存在的过平滑效应，本文提出一种新型基于 Transformer 的 DDPM，采用 minGPT 的架构进行动作预测。噪声动作序列作为输入 token 送入 Transformer 解码器模块，扩散迭代步 k 的正弦位置编码被前置为第一个 token。观测通过共享 MLP 转换为观测嵌入序列，随后作为输入特征送入 Transformer 解码器堆叠。解码器堆叠对应的每个输出 token，将预测 "梯度" 。在基于状态的实验中，大多数性能最优的策略均采用 Transformer 作为骨干网络，尤其是在任务复杂度高、动作变化率快的场景下。然而我们发现，Transformer 对超参数更敏感。Transformer 训练的难度并非扩散策略独有的问题，未来随着 Transformer 训练技术的改进或数据规模的提升，这一问题有望得到解决。

Fig. 3: Diffusion Policy Overview（扩散策略整体概览）

a) 通用公式框架 ：在时间步 t，策略接收最近步观测数据作为输入，输出步动作序列。b) 基于 CNN 的扩散策略 ：采用 FiLM（特征级线性调制）条件化机制，将观测特征以通道级方式注入每一层卷积网络。从高斯噪声中采样得到初始动作序列，通过噪声预测网络迭代 K 次去噪，最终得到无噪声的动作序列。c) 基于 Transformer 的扩散策略 ：将观测的嵌入向量输入到每个 Transformer 解码器块的多头交叉注意力层；每个动作嵌入通过图示的注意力掩码，实现仅关注自身和历史动作嵌入的因果注意力约束。

左侧：输入输出闭环流程

输入：多模态观测序列（图像 + 机器人位姿），对应（含到 t 步的历史观测）
输出：动作序列，包含未来步的预测动作，其中仅执行前步，随后进行滚动重规划
核心机制 ：扩散模型从高斯噪声出发，经多步去噪迭代，逐步生成清晰的动作轨迹

右侧：两种网络架构的条件化实现

表格

架构	条件化方式	核心特点
CNN-based	FiLM（特征级线性调制）	对每一层卷积输出做通道级仿射变换，将观测条件注入网络；计算高效，适合平滑动作
Transformer-based	交叉注意力（Cross-Attention）+ 因果掩码	观测作为条件参与所有动作嵌入的注意力计算，同时动作间采用因果注意力，避免未来信息泄露；擅长捕捉长程时序依赖，适配高频动作变化

建议

一般来说，我们建议在新任务上首次尝试时，优先采用基于 CNN 的扩散策略实现。如果由于任务复杂度或高频动作变化导致性能不佳，再使用时序扩散 Transformer 方案，以额外的调优成本换取潜在的性能提升。

B. 视觉编码器

视觉编码器将原始图像序列映射为潜在嵌入，并与扩散策略进行端到端联合训练。不同相机视角使用独立编码器，每个时间步的图像被独立编码后拼接，形成最终的观测嵌入。

本研究采用标准 ResNet-18（无预训练）作为基础编码器，并进行以下两处关键修改：

将全局平均池化替换为空间 Softmax 池化，以保留空间信息；
将 BatchNorm 替换为GroupNorm，以提升训练稳定性。这在归一化层与指数移动平均（EMA，DDPM 中常用技术）结合使用时尤为重要。

C. 噪声调度

由及附加高斯噪声作为迭代步 k 的函数所定义的噪声调度，已被广泛研究。底层的噪声调度决定了扩散策略对动作信号高频与低频特征的捕捉能力。在本研究的控制任务中，经验发现 iDDPM 中提出的 ** 平方余弦调度（Square Cosine Schedule）** 表现最佳。

D. 面向实时控制的推理加速

由于扩散过程直接作为机器人的控制策略，闭环实时控制对推理速度有极高要求。** 去噪扩散隐式模型（DDIM）** 将训练与推理的去噪迭代次数解耦，允许在推理阶段使用更少的迭代步来加速采样。在真实世界实验中，采用 DDIM 加速后，使用 100 次训练迭代、10 次推理迭代，在 NVIDIA 3080 GPU 上可实现 0.1 秒的推理延迟。

IV. 扩散策略的独特特性

本节将深入探讨扩散策略的核心特性，及其相较于其他策略表征形式的优势。

A. 多模态动作分布建模

行为克隆领域的文献中，已广泛讨论了如何建模人类示范中的多模态分布这一难题。扩散策略能够自然且精准地表达多模态分布，这是其核心优势之一。直观来说，扩散策略动作生成的多模态特性来源于两个方面：底层的随机采样过程，以及随机初始化。

在随机朗之万动力学中，每次采样开始时，都会从标准高斯分布中采样得到初始样本，这为最终的动作预测提供了不同的收敛盆地。随后，该动作会经过随机优化过程：在大量迭代中持续添加高斯扰动，使得单个动作样本能够在不同的多模态动作盆地之间收敛和迁移。

图 4 展示了扩散策略在平面推物任务（下文介绍的 Push T 任务）中的多模态行为示例，且该场景并未提供明确的示范数据。

图 4：多模态行为示例

在给定状态下，机械臂末端（蓝色）可以向左或向右推动方块。扩散策略能够同时学习这两种动作模式，并且在每次轨迹执行中稳定选择其中一种模式。相比之下，LSTM-GMM 和 IBC 两种方法都偏向于其中单一模式；而 BET 方法由于缺乏动作时序一致性，无法稳定收敛到单一模式。图中展示的是各方法最优模型执行 40 步生成的动作轨迹。

B. 与位置控制的协同效应

我们发现，采用位置控制动作空间的扩散策略，性能始终优于采用速度控制的版本（如图 5 所示）。这一出人意料的结果，与近年来大多数依赖速度控制的行为克隆研究形成了鲜明对比。

我们推测这一差异主要有两个原因：

位置控制的动作多模态特性更显著。由于扩散策略相比现有方法能更好地表达多模态动作分布，它天然地受这一特性的负面影响更小；
位置控制的误差累积效应弱于速度控制，因此更适合动作序列预测任务（下一节将展开讨论）。

综上，扩散策略既不受位置控制的主要缺点影响，又能充分发挥位置控制的优势。

C. 动作序列预测的优势

由于高维输出空间采样困难，大多数策略学习方法都刻意回避序列预测任务。例如，隐式行为克隆（IBC）在非平滑能量势场下，难以对高维动作空间进行有效采样；类似地，BC-RNN 和 BET 方法则需要预先指定动作分布中的模态数量（这是高斯混合模型或 K-means 步骤的必要前提），而这在实际场景中往往难以确定。

相比之下，DDPM（去噪扩散概率模型）已在图像生成领域证明，它能在不损失模型表达能力的同时，很好地扩展到高维输出空间。扩散策略利用这一特性，以高维动作序列的形式表征动作，天然解决了以下两个关键问题：

动作时序一致性：以图 4 的推 T 型方块任务为例，要将方块从底部推入目标，机械臂可以从左侧或右侧绕开。然而，如果序列中的每个动作都被预测为独立的多模态分布（如 BC-RNN 和 BET 所采用的方式），连续的动作就可能从不同的模态中采样得到，导致机械臂在两种有效轨迹之间来回切换，产生抖动行为。
对空闲动作的鲁棒性：空闲动作通常出现在示教暂停阶段，表现为一系列重复的位置动作或接近零的速度动作。这在遥操作中很常见，也是液体倾倒等任务中必需的操作。然而，单步策略很容易对这种暂停行为过拟合。例如，当训练数据中没有明确剔除空闲动作时，BC-RNN 和 IBC 在真实世界实验中经常会陷入停滞状态。

D. 训练稳定性

理论上，隐式行为克隆（IBC）本应具备与扩散策略相近的优势。但在实际应用中，IBC 固有的训练不稳定性 ，使其难以稳定产出高性能模型。图 7 展示了：IBC 在整个训练过程中存在训练误差突跳 、评估性能剧烈波动的现象，导致其极度依赖超参数调优，同时模型最优检查点难以挑选。因此 Florence 等人的工作需要评估每一轮检查点，只汇报其中性能最优的结果。在真实机器人部署场景下，这种流程意味着必须在硬件上逐一测试大量策略模型，才能筛选最终可用版本。本节将分析扩散策略训练稳定性显著更优的内在原因。

隐式策略基于能量模型（EBM）来表示动作分布：

其中是（关于动作的）难解归一化常数。

为训练隐式策略的能量模型，采用 InfoNCE 风格的损失函数，其等价于式（6）的负对数似然：

其中一组负样本被用来估计难解的归一化常数。实践中，负采样的不准确性是导致能量模型训练不稳定的已知问题。

扩散策略和 DDPM 则通过建模式（6）中同一动作分布的分数函数 ，完全绕开了估计的问题：

其中噪声预测网络近似于负的分数函数，该函数与归一化常数无关。因此，扩散策略的推理（式 4）和训练（式 5）过程均不涉及对的估计，从而使得训练过程更加稳定。

第五章实验评测

本文在4 套基准测试集、共计 12 项任务 上对扩散策略开展系统性评测。评测范围覆盖仿真环境与真实物理环境、单任务与多任务基准、全驱动及欠驱动机器人系统，操作对象包含刚体与流体物体。实验结果表明：扩散策略在所有测试基准上均持续超越现有最优方法 ，平均任务成功率提升46.9%。后续章节将逐一介绍各项任务设置、评测方案，并总结核心实验结论。

A. 仿真环境与数据集

Robomimic：这是一个面向模仿学习与离线强化学习研究的大规模机器人操作基准测试集。该基准包含 5 项任务，每项任务均提供由熟练人类（PH）遥操作采集的示范数据集；其中 4 项任务还包含熟练 / 非熟练人类混合（MH）示范数据集，共 9 种任务变体。对于每个变体，我们同时报告基于状态和基于图像观测的实验结果。各任务的特性汇总于表 III。
Push-T：改编自 IBC 工作，任务要求用圆形末端执行器（蓝色）将 T 形方块（灰色）推至固定目标位置（红色）。T 形方块与末端执行器的初始位置随机初始化，引入了任务的可变性。该任务需要利用点接触方式，结合复杂且接触密集的物体动力学，精准推动 T 形方块。任务包含两种观测变体：一种为 RGB 图像观测，另一种为从 T 形方块真实位姿获取的 9 个 2D 关键点观测，两种变体均额外包含末端执行器位置的本体感知信息。
多模态推方块任务（Multimodal Block Pushing）：改编自 BET 工作，该任务通过要求将两个方块推入两个目标方格（顺序不限），来测试策略建模多模态动作分布的能力。示范数据由可访问真实状态信息的脚本化 "oracle" 生成：该 oracle 会随机选择一个初始方块，将其推入随机选择的目标方格，再将剩余方块推入剩下的目标方格。此任务存在长时序多模态特性，无法通过观测到动作的单一函数映射来建模。
Franka Kitchen 任务：是评估模仿学习（IL）与离线强化学习（Offline-RL）方法学习多任务、长时序任务能力的经典环境。该环境在 Relay Policy Learning 工作中提出，包含 7 个可交互物体，并附带由人类采集的 566 条示范数据，每条示范以任意顺序完成 4 项子任务。任务目标是按任意顺序执行尽可能多的示范任务，同时展现了短时序与长时序的多模态特性。

B.评测方法

我们在每个基准测试集上，都展示了所有基线方法的最优性能结果，数据来源包括：我们复现的结果（LSTM-GMM）或论文原报告数据（BET、IBC）。

评测流程如下：

取3 个训练随机种子 ，每个种子保存的模型中，取最后 10 个检查点（每 50 个 epoch 保存一次）；
每个检查点在50 种环境初始化条件下测试，因此每个方法的结果平均基于 \(3 \times 10 \times 50 = 1500\) 次实验。
评测指标 ：绝大多数任务采用任务成功率，Push-T 任务采用目标区域覆盖率。
为与原始论文的评测方法保持一致，Robomimic 和 Push-T 任务额外报告了最优检查点的平均结果。
训练设置：所有基于状态观测的任务训练 4500 个 epoch，基于图像观测的任务训练 3000 个 epoch。
动作空间选择：每个方法均采用其最优动作空间配置：扩散策略使用位置控制，基线方法使用速度控制（动作空间的影响将在第 V-C 节详细讨论）。

C. 核心实验结论

在仿真基准实验中（表 I、表 II、表 IV），无论采用状态观测还是视觉图像观测 ，扩散策略在所有任务及任务变体上均优于对比方法，平均性能提升达 46.9%。下文总结主要研究发现。

1. 扩散策略具备短时多模态建模能力 本文将短时动作多模态定义为：达成同一即时目标存在多种可行动作方式，这一现象在人类示教数据中十分普遍。图 4 以 Push-T 任务为例展示了典型短时多模态场景：扩散策略能够以均等概率从左侧或右侧趋近接触点；而 LSTM-GMM 与 IBC 均偏向单一路径，BET 则无法稳定锁定任意一种模态。

2. 扩散策略具备长时多模态建模能力 长时多模态 指子任务可按任意顺序完成。例如多方块推物任务中推块的先后顺序、厨房任务中 7 个可交互物体的操作顺序均无固定要求。实验表明，扩散策略能很好适配这类长时序多模态场景，且大幅超越基线：多方块推物任务 p2 指标提升 32% ，厨房任务 p4 指标提升 213%。

3. 扩散策略能充分发挥位置控制的优势 消融实验（图 5）表明：扩散策略选用位置控制 作为动作空间时，性能显著优于速度控制。反观所评测的基线方法，均在速度控制下表现最优；这也与现有主流研究一致，多数已有工作普遍采用速度控制动作空间。

4. 动作预测时域存在权衡关系 如第四章 C 节所述：动作预测时域大于 1 ，有助于策略输出时序一致的动作序列，并兼容示教中的空闲停顿片段；但时域过长会导致系统响应变慢，反而性能下降。实验验证了这一权衡规律（图 6 左），并发现8 步动作时域在绝大多数测试任务中为最优配置。

抗延迟鲁棒性 扩散策略采用滚动时域位置控制 ，预测未来一段动作序列。该设计能够有效弥补由图像处理、策略推理以及网络延迟带来的系统时延。引入仿真时延的消融实验表明：扩散策略在时延高达 4 步 时仍能保持最优性能（见图 6）。同时我们发现，速度控制 受时延影响远大于位置控制，原因大概率在于速度控制存在误差累积效应。

扩散策略训练稳定性强 实验发现，扩散策略的最优超参数在不同任务间基本通用。与之相比，IBC 方法极易出现训练不稳定问题，相关机理已在第四章 D 节展开讨论。

六.真实世界评价。

我们在两套硬件平台、四项真实机器人任务 上实测了扩散策略的真机性能，每套平台均采用不同示教者采集的训练数据。在真机 Push‑T 任务中，我们针对两种网络架构、三种视觉编码器 对扩散策略开展消融实验；同时选取两种基线方法，分别在位置控制、速度控制 动作空间下进行对标评测。在全部真机任务中，采用 CNN 主干网络 + 端到端训练视觉编码器的扩散策略变体均取得最优性能。任务配置与超参数详见补充材料。

A. 真机 Push‑T 任务

真机 Push‑T 相比仿真版本难度显著提升，主要有三点改动：

任务多阶段化：机器人需先将 T 形方块推至目标区域，再将机械臂末端移动至指定终止区域，避免视觉遮挡。
需要精细微调 ：机械臂必须微调位置，确保 T 形方块完全落入目标区域后，再前往终止区域，由此引入了额外的短时多模态行为。
评价指标规则变更 ：交并比 IoU 仅在最后一步计算，而非取全程最大值；任务成功率以人类示教数据集所能达到的最低 IoU 作为判定阈值。

基于 UR5 的实验平台如图 V 所示。扩散策略以 10 Hz 输出机器人控制指令，再经线性插值升频至 125 Hz 供机器人执行。

结果分析

扩散策略真机成功率达 95% 、平均 IoU 为 0.80 ，已接近人类水平（人类 IoU 0.84）；而最优配置的 IBC 与 LSTM‑GMM 基线成功率仅分别为 0% 、20% 。图 8 定性对比了各方法在相同初始条件下的行为表现。我们发现：基线方法最常见的失败原因是任务阶段切换时表现劣化------ 阶段切换处多模态特征强、决策边界模糊，传统策略难以处理。

在 20 轮评估中：

LSTM‑GMM 有 8 次 在 T 形方块附近陷入停滞；
IBC 有 6 次 过早离开方块区域。

受任务特性限制，本实验没有常规剔除训练数据中的空闲动作，这也加剧了 LSTM 与 IBC 对小幅动作过拟合、易卡死停滞的问题。各方法行为效果建议参考补充材料视频。

端到端视觉编码器 vs 预训练视觉编码器

如表 V 所示，我们为扩散策略分别接入 ImageNet 预训练编码器 、R3M 预训练编码器 进行对比测试：

R3M 预训练版本成功率可达 80%，但动作抖动明显、更容易陷入停滞；
ImageNet 预训练版本表现更差，动作突变生硬、任务成功率低。

实验证明：端到端联合训练仍是将视觉观测有效融入扩散策略的最优方式，本文所有最优性能模型均采用端到端训练方案。

抗扰动鲁棒性

本文在表 V 实验之外，额外单独开展实验，评估了扩散策略对视觉扰动 与物理扰动的鲁棒性。如图 9 所示，实验施加了三类扰动：

视觉遮挡扰动：用挥手遮挡前置摄像头 3 秒（图左列）。扩散策略虽出现轻微动作抖动，但仍保持规划轨迹，顺利将 T 形方块推至目标位置。
中途物理移位扰动 ：在扩散策略对 T 形方块进行位置精细微调时，人为偏移方块位置。扩散策略可立刻重新规划，从反方向推行抵消扰动影响。
阶段后物理扰动：机器人完成第一阶段、正前往终止区域途中，人为挪动 T 形方块。扩散策略立即改变行进路线，先重新将方块校正回目标位置，再继续前往终止区域。

该实验表明：面对从未见过的观测状态，扩散策略具备生成全新行为策略的能力。

B. 杯子翻转任务

杯子翻转任务用于测试扩散策略在接近机器人运动学极限工况下，处理复杂三维旋转操作的能力。任务目标是将随机放置的杯子调整至指定姿态：① 杯口朝下；② 杯柄朝左，如图 10 所示。

根据杯子初始位姿不同，示教者既可以直接抓取并摆放至目标姿态，也可以通过额外推拨杯柄使杯子旋转。因此该示教数据集具有高度多模态特性：包含抓取模式与推拨模式、不同抓取方式（正手 / 反手），以及沿杯子主轴微调旋转的局部抓取动作，对基线方法而言极具建模难度。

结果分析

在 20 次测试中，扩散策略任务成功率达到 90% ，其丰富的行为模式可参考配套视频直观感受。即便示教数据中从未出现过相关行为，该策略仍能自主生成多步连续推拨 以对齐杯柄；必要时还能对滑落的杯子进行重新抓取。

作为对比，我们使用同一份数据子集训练了 LSTM-GMM 策略。在 20 种分布内初始条件下，LSTM-GMM 始终无法与杯子完成精准对位，且无法成功完成抓取动作。

C. 酱料倾倒与涂抹任务

酱料倾倒与涂抹任务，旨在真机环境下 测试扩散策略处理非刚体物体、六自由度动作空间 以及周期性动作的能力。实验基于 Franka Panda 机器人平台搭建，任务场景如图 11 所示。

六自由度倾倒任务 目标：将满满一勺酱料精准倾倒在披萨面饼中心；以倾倒酱料掩码 与面饼中心标准圆形区域之间的交并比 IoU作为评价指标（见图 11 绿色基准圆）。

周期性涂抹任务 目标：在披萨面饼上均匀摊开酱料，以酱料覆盖面积作为评测指标。每次评测中，面饼与酱料碗的位置随机变化，引入任务随机性；任务成功率以人类示范的最低性能作为判定阈值。任务效果建议参考补充材料视频。

两项任务直接沿用 Push‑T 任务的超参数配置，首次训练即收敛得到可用策略。

酱料倾倒任务要求机器人保持静止一段时间，让粘稠番茄酱自然盛满勺子。这类空闲静置动作对传统行为克隆算法极具挑战，因此现有工作通常会刻意规避或过滤此类数据。倾倒过程中还需要精细微调姿态，保证酱料覆盖范围与成型效果。

酱料涂抹的示教行为模仿人工厨师手法：既需要长时序循环运动 以最大化涂抹覆盖面积，又需要短时实时反馈保证酱料分布均匀（实验所用番茄酱常结块滴落、大小不可预测）。周期性运动本身也是模仿学习中的难点，现有方法往往需要设计专门的动作表征才能拟合。两项任务均要求策略能够自主判断任务结束，主动抬起勺具终止动作。

结果分析

扩散策略在两项任务上均达到接近人类水平 ：倾倒任务覆盖率 0.74 （人类 0.79），涂抹任务覆盖率 0.77（人类 0.79）。在倾倒、涂抹过程中，人为挪动披萨面饼等外部扰动时，扩散策略均能平稳自适应调整。完整效果建议查看补充视频。

基线 LSTM‑GMM 在两项任务上表现均很差：

倾倒任务 ：20 次测试中有 15 次舀酱完成后无法自主抬勺 ；即便成功抬勺，酱料也普遍倾倒偏心，且全程无法自主终止任务。推测原因是 LSTM 的隐状态无法捕捉足够长的时序历史，难以区分 "浸勺盛料" 与 "抬勺倾倒" 两个任务阶段。
涂抹任务 ：LSTM‑GMM 在任务一开始就直接抬起勺子，20 次全部无法接触酱料，完全无法完成涂抹。

第七章相关工作译文

无需对机器人行为进行显式编程，即可打造具备自主作业能力的机器人，是机器人领域长期以来的研究难题。行为克隆虽然原理简洁，却在大量真实机器人任务中展现出不俗潜力，涵盖机器人操作、自动驾驶等场景。

依据策略结构，现有行为克隆方法可分为两大类：显式策略 与隐式策略。

显式策略

显式策略最基础的形式，是直接由环境状态或观测映射到动作。这类策略可通过直接回归损失进行监督训练，仅需单次前向推理，计算效率高。但该类策略无法建模多模态示教行为，也难以胜任高精度作业任务。

为在保留直接动作映射简洁性的同时建模多模态动作分布，一种主流思路是对动作空间离散化，将回归任务转为分类任务。然而，逼近连续动作空间所需的离散区间数量，会随维度升高呈指数级增长。

另一种思路是结合类别分布与高斯分布，通过混合密度网络 MDN 或聚类偏移预测，表征连续多模态分布。但这类模型普遍对超参数敏感、易发生模式坍缩，且对高精度行为的表达能力仍存在局限。

隐式策略

隐式策略依托基于能量模型 EBM 定义动作分布：为每个动作分配一个能量值，动作预测等价于求解最小能量优化问题 。由于多个不同动作均可拥有低能量，隐式策略天然具备表征多模态分布的能力。但现有隐式策略训练过程稳定性差，原因是计算 Info-NCE 损失时必须采样负样本，负采样偏差会严重影响训练收敛。

扩散模型

扩散模型是一类概率生成模型，通过迭代优化随机噪声，逐步生成符合目标分布的样本；也可从原理上理解为：学习隐式动作分数的梯度场，并在推理阶段沿梯度迭代优化。

近年来扩散模型已被广泛应用于各类控制任务：Janner 等人、Huang 等人将扩散模型用于轨迹规划 ，在环境中推理可执行的动作轨迹；Wang 等人在强化学习中，利用扩散模型做策略表征与正则化，采用状态类观测输入。

与之不同，本文聚焦将扩散模型有效应用于行为克隆，构建高性能视觉运动控制策略。我们融合 DDPM 预测高维动作序列的能力与闭环控制框架，设计面向动作扩散的 Transformer 新架构，并提出视觉输入与动作扩散模型的融合方案。

Wang 等人利用专家示教训练的扩散模型增强传统显式策略，并未将扩散模型直接作为策略表征。

与本文同期工作中，Pearce 等人、Reuss 等人、Hansen-Estruch 等人在仿真环境中对基于扩散的策略开展了互补研究：他们侧重高效采样策略、无分类器引导的目标条件化以及强化学习应用；本文则侧重动作空间选型，二者在仿真实验结论上大体一致。

此外，本文大规模真机实验有力证明：滚动时域预测机制、位置 / 速度控制的审慎选择、实时推理优化，以及面向物理机器人系统的关键架构设计，都具备极其重要的工程价值。

第八章局限性与未来工作

尽管本文已在仿真与真机系统中验证了扩散策略的有效性，但仍存在若干局限，可供后续研究进一步改进。

第一，本文方案仍继承了行为克隆 固有的缺陷：当示教数据质量不足时，策略容易表现出次优性能。未来可将扩散策略拓展至强化学习等范式，利用次优数据与负样本数据进一步提升能力。

第二，相较于 LSTM‑GMM 等轻量化基线方法，扩散策略计算开销更大、推理延迟更高 。本文的动作序列预测方式虽在一定程度上缓解了该问题，但仍难以满足高频控制任务需求。后续可结合扩散模型最新加速技术降低推理步数，例如新型噪声调度、快速推理求解器以及一致性模型等方法。

第九章结论

本文系统探究了基于扩散模型的机器人行为策略 的可行性。通过在仿真与真机共 12 项任务 上的全面评测，本文证明：基于扩散的视觉运动策略能够稳定且显著地超越现有方法，同时具备训练稳定、易调参的优势。

实验同时明确了几项关键设计要素：滚动时域动作预测、机械臂末端位置控制、高效视觉条件融合，这些设计是充分释放扩散策略性能潜力的核心。

影响行为克隆策略最终效果的因素众多，包括示教数据质量与数量、机器人本体物理性能、策略网络架构以及预训练方案等。但本文实验结果有力表明：策略网络结构本身是行为克隆过程中极为关键的性能瓶颈。

希望本研究能够推动学界进一步探索扩散类机器人策略，并促使研究者不只关注训练数据本身，而是从行为克隆全流程各维度进行综合考量。

具身智能论文精读（四）：Diffusion Policy

Abstract

1.介绍

图 1 策略表征方式

典型例子

典型例子

第二章 扩散策略建模推导

A. 去噪扩散概率模型（DDPM）

B. DDPM 模型训练

C. 面向视觉运动策略学习的扩散模型

闭环动作序列预测

视觉观测条件约束

III. 关键设计决策

A. 网络架构选型

基于 CNN 的扩散策略

时序扩散 Transformer

Fig. 3: Diffusion Policy Overview（扩散策略整体概览）

左侧：输入输出闭环流程

右侧：两种网络架构的条件化实现

建议

B. 视觉编码器

C. 噪声调度

D. 面向实时控制的推理加速

IV. 扩散策略的独特特性

A. 多模态动作分布建模

B. 与位置控制的协同效应

C. 动作序列预测的优势

D. 训练稳定性

第五章 实验评测

A. 仿真环境与数据集

B.评测方法

C. 核心实验结论

六.真实世界评价。

A. 真机 Push‑T 任务

结果分析

端到端视觉编码器 vs 预训练视觉编码器

抗扰动鲁棒性

B. 杯子翻转任务

结果分析

C. 酱料倾倒与涂抹任务

结果分析

第七章 相关工作译文

显式策略

隐式策略

扩散模型

第八章 局限性与未来工作

第九章 结论

第二章扩散策略建模推导

第五章实验评测

第七章相关工作译文

第八章局限性与未来工作

第九章结论