【Robot】：机器人学习策略(ACT、Diffusion Policy 与 π0.5 对比)

ACT、Diffusion Policy 与 π0.5 策略对比

基于搜索结果，我来为您详细对比这三种机器人学习策略的异同点。这三种策略代表了从经典模仿学习到生成式模型再到视觉-语言-动作大模型的技术演进路径。

ACT的核心创新是动作分块 与条件变分自编码器的结合。

动作分块机制：传统模仿学习每步预测一个动作，容易产生累计误差。ACT一次性预测未来k个动作（chunk_size通常为100），将有效任务时长从500步缩短到5步，大幅降低了累计误差。

CVAE结构：ACT采用条件变分自编码器处理人类演示数据的随机性。编码器将动作序列压缩为隐变量z（风格变量），解码器根据z和当前观测生成动作块。推理时z置零，输出平均策略。

时序集成：为了解决分块导致的动作突变问题，ACT使用指数衰减权重对重叠的预测块进行加权平均，实现平滑执行。

Diffusion Policy将策略建模为条件去噪扩散过程。

核心思想：从高斯噪声开始，经过多步迭代去噪，逐步恢复出真实动作序列。这相当于学习动作分布的梯度场，通过郎之万动力学采样生成动作。

关键优势：

网络结构：采用U-Net架构，将视觉观测作为条件输入。视觉特征通过ResNet提取后，以FiLM方式注入U-Net的各个层次。

π0.5是Physical Intelligence公司开发的视觉-语言-动作大模型。

分层架构：

训练范式：采用预训练+后训练两阶段。预训练使用多源异构数据（含网络数据、其他机器人数据），建立基础能力；后训练针对目标机器人定向微调。

动作表示：使用FAST动作分词器将连续动作压缩为离散Token，支持自回归Transformer架构的高效训练。

特性	ACT	Diffusion Policy	π0.5
动作表示	连续动作块	连续动作轨迹	FAST离散Token
处理多模态	有限（通过CVAE）	强（天然支持）	强（通过语义分层）
泛化能力	任务内泛化	任务内泛化	开放世界泛化（新物体、新环境）
实时性	0.01秒推理	需多步去噪（可优化）	实时（RTC算法支持）
数据效率	高（50个演示即可）	中	需要大规模预训练
长时序任务	分块支持	通过滑动窗口	分层推理支持10-15分钟任务

典型应用：Mobile Aloha的双臂操作任务（叠衣服、做饭）

数据规模：预训练使用了超1万小时数据，涵盖7种机器人本体

这三种策略并非互斥------π0.5的后训练阶段实际上结合了扩散/流匹配方法，而实时动作分块算法（RTC）可应用于任何基于扩散的VLA模型。在实际应用中，可以根据任务需求选择合适的技术路线。