ACT、Diffusion Policy 与 π0.5 策略对比
基于搜索结果,我来为您详细对比这三种机器人学习策略的异同点。这三种策略代表了从经典模仿学习到生成式模型再到视觉-语言-动作大模型的技术演进路径。
一、核心定位与类型
| 策略 | 类型 | 核心思想 | 发布时间 |
|---|---|---|---|
| ACT | 动作分块Transformer + CVAE | 预测固定长度的动作块,降低任务有效时长 | 2023-2024年 |
| Diffusion Policy | 扩散生成模型 | 将策略建模为条件去噪扩散过程 | 2023年 |
| π0.5 | 视觉-语言-动作大模型 | 基于VLA架构,预训练+微调范式 | 2025年4月 |
二、核心技术原理
1. ACT (Action Chunking with Transformers)
ACT的核心创新是动作分块 与条件变分自编码器的结合。
动作分块机制:传统模仿学习每步预测一个动作,容易产生累计误差。ACT一次性预测未来k个动作(chunk_size通常为100),将有效任务时长从500步缩短到5步,大幅降低了累计误差。
CVAE结构:ACT采用条件变分自编码器处理人类演示数据的随机性。编码器将动作序列压缩为隐变量z(风格变量),解码器根据z和当前观测生成动作块。推理时z置零,输出平均策略。
时序集成:为了解决分块导致的动作突变问题,ACT使用指数衰减权重对重叠的预测块进行加权平均,实现平滑执行。
2. Diffusion Policy
Diffusion Policy将策略建模为条件去噪扩散过程。
核心思想:从高斯噪声开始,经过多步迭代去噪,逐步恢复出真实动作序列。这相当于学习动作分布的梯度场,通过郎之万动力学采样生成动作。
关键优势:
- 自然表达多模态动作分布(应对同一任务的不同演示风格)
- 稳定训练(无需像GAN那样进行对抗训练)
- 适合高维动作空间
网络结构:采用U-Net架构,将视觉观测作为条件输入。视觉特征通过ResNet提取后,以FiLM方式注入U-Net的各个层次。
3. π0.5
π0.5是Physical Intelligence公司开发的视觉-语言-动作大模型。
分层架构:
- 高层推理:预测语义子任务(如"拿起杯子"、"放入水槽")
- 低层推理:生成具体的机器人动作块
训练范式:采用预训练+后训练两阶段。预训练使用多源异构数据(含网络数据、其他机器人数据),建立基础能力;后训练针对目标机器人定向微调。
动作表示:使用FAST动作分词器将连续动作压缩为离散Token,支持自回归Transformer架构的高效训练。
三、关键特性对比
| 特性 | ACT | Diffusion Policy | π0.5 |
|---|---|---|---|
| 动作表示 | 连续动作块 | 连续动作轨迹 | FAST离散Token |
| 处理多模态 | 有限(通过CVAE) | 强(天然支持) | 强(通过语义分层) |
| 泛化能力 | 任务内泛化 | 任务内泛化 | 开放世界泛化(新物体、新环境) |
| 实时性 | 0.01秒推理 | 需多步去噪(可优化) | 实时(RTC算法支持) |
| 数据效率 | 高(50个演示即可) | 中 | 需要大规模预训练 |
| 长时序任务 | 分块支持 | 通过滑动窗口 | 分层推理支持10-15分钟任务 |
四、性能与场景
ACT适用场景
- 精细操作:如穿拉链、装电池、开盖子等,成功率80-96%
- 数据稀缺:50个演示即可训练
- 实时控制:0.01秒推理时间
典型应用:Mobile Aloha的双臂操作任务(叠衣服、做饭)
Diffusion Policy适用场景
- 多模态动作分布:演示数据包含多种成功路径时表现优异
- 高维动作空间:如6自由度机械臂+夹爪控制
- 稳定训练:几乎无需调参,benchmark平均提升46.9%
π0.5适用场景
- 开放世界泛化:能在未训练过的住宅环境中执行任务
- 长时程任务:10-15分钟的复杂任务序列(如整理床铺、挂毛巾)
- 语义理解:接收自然语言指令,自主规划子任务
数据规模:预训练使用了超1万小时数据,涵盖7种机器人本体
五、选择建议
| 如果您需要... | 推荐选择 |
|---|---|
| 快速部署特定精细操作任务,演示数据有限 | ACT |
| 处理有多样化演示路径的任务,追求训练稳定性 | Diffusion Policy |
| 开放环境泛化,理解自然语言指令,长时任务规划 | π0.5 |
| 最简单的入门实验 | ACT(LeRobot直接支持) |
这三种策略并非互斥------π0.5的后训练阶段实际上结合了扩散/流匹配方法,而实时动作分块算法(RTC)可应用于任何基于扩散的VLA模型。在实际应用中,可以根据任务需求选择合适的技术路线。