【Robot】:机器人学习策略(ACT、Diffusion Policy 与 π0.5 对比)

ACT、Diffusion Policy 与 π0.5 策略对比

基于搜索结果,我来为您详细对比这三种机器人学习策略的异同点。这三种策略代表了从经典模仿学习到生成式模型再到视觉-语言-动作大模型的技术演进路径。


一、核心定位与类型

策略 类型 核心思想 发布时间
ACT 动作分块Transformer + CVAE 预测固定长度的动作块,降低任务有效时长 2023-2024年
Diffusion Policy 扩散生成模型 将策略建模为条件去噪扩散过程 2023年
π0.5 视觉-语言-动作大模型 基于VLA架构,预训练+微调范式 2025年4月

二、核心技术原理

1. ACT (Action Chunking with Transformers)

ACT的核心创新是动作分块条件变分自编码器的结合。

动作分块机制:传统模仿学习每步预测一个动作,容易产生累计误差。ACT一次性预测未来k个动作(chunk_size通常为100),将有效任务时长从500步缩短到5步,大幅降低了累计误差。

CVAE结构:ACT采用条件变分自编码器处理人类演示数据的随机性。编码器将动作序列压缩为隐变量z(风格变量),解码器根据z和当前观测生成动作块。推理时z置零,输出平均策略。

时序集成:为了解决分块导致的动作突变问题,ACT使用指数衰减权重对重叠的预测块进行加权平均,实现平滑执行。

2. Diffusion Policy

Diffusion Policy将策略建模为条件去噪扩散过程

核心思想:从高斯噪声开始,经过多步迭代去噪,逐步恢复出真实动作序列。这相当于学习动作分布的梯度场,通过郎之万动力学采样生成动作。

关键优势

  • 自然表达多模态动作分布(应对同一任务的不同演示风格)
  • 稳定训练(无需像GAN那样进行对抗训练)
  • 适合高维动作空间

网络结构:采用U-Net架构,将视觉观测作为条件输入。视觉特征通过ResNet提取后,以FiLM方式注入U-Net的各个层次。

3. π0.5

π0.5是Physical Intelligence公司开发的视觉-语言-动作大模型

分层架构

  • 高层推理:预测语义子任务(如"拿起杯子"、"放入水槽")
  • 低层推理:生成具体的机器人动作块

训练范式:采用预训练+后训练两阶段。预训练使用多源异构数据(含网络数据、其他机器人数据),建立基础能力;后训练针对目标机器人定向微调。

动作表示:使用FAST动作分词器将连续动作压缩为离散Token,支持自回归Transformer架构的高效训练。

三、关键特性对比

特性 ACT Diffusion Policy π0.5
动作表示 连续动作块 连续动作轨迹 FAST离散Token
处理多模态 有限(通过CVAE) 强(天然支持) 强(通过语义分层)
泛化能力 任务内泛化 任务内泛化 开放世界泛化(新物体、新环境)
实时性 0.01秒推理 需多步去噪(可优化) 实时(RTC算法支持)
数据效率 高(50个演示即可) 需要大规模预训练
长时序任务 分块支持 通过滑动窗口 分层推理支持10-15分钟任务

四、性能与场景

ACT适用场景

  • 精细操作:如穿拉链、装电池、开盖子等,成功率80-96%
  • 数据稀缺:50个演示即可训练
  • 实时控制:0.01秒推理时间

典型应用:Mobile Aloha的双臂操作任务(叠衣服、做饭)

Diffusion Policy适用场景

  • 多模态动作分布:演示数据包含多种成功路径时表现优异
  • 高维动作空间:如6自由度机械臂+夹爪控制
  • 稳定训练:几乎无需调参,benchmark平均提升46.9%

π0.5适用场景

  • 开放世界泛化:能在未训练过的住宅环境中执行任务
  • 长时程任务:10-15分钟的复杂任务序列(如整理床铺、挂毛巾)
  • 语义理解:接收自然语言指令,自主规划子任务

数据规模:预训练使用了超1万小时数据,涵盖7种机器人本体

五、选择建议

如果您需要... 推荐选择
快速部署特定精细操作任务,演示数据有限 ACT
处理有多样化演示路径的任务,追求训练稳定性 Diffusion Policy
开放环境泛化,理解自然语言指令,长时任务规划 π0.5
最简单的入门实验 ACT(LeRobot直接支持)

这三种策略并非互斥------π0.5的后训练阶段实际上结合了扩散/流匹配方法,而实时动作分块算法(RTC)可应用于任何基于扩散的VLA模型。在实际应用中,可以根据任务需求选择合适的技术路线。

相关推荐
沫儿笙4 小时前
库卡机器人铝工件焊接节气设备
人工智能·机器人
marteker4 小时前
Meta 用人工智能取代内容审核人员,并扩大人工智能支持机器人使用范围
人工智能·机器人
CyanMind4 小时前
IsaacLab 训练范式探索(三):非对称 Actor-Critic 架构与信息不对等的魔法
架构·机器人
2501_941982055 小时前
企微关键词自动回复:精准拦截需求,实现私域流量的高效承接
机器人·自动化·企业微信
Deepoch5 小时前
Deepoc具身模型开发板:除草机器人的全天候作业中枢
人工智能·科技·机器人·开发板·具身模型·deepoc·除草机器人
灵途科技5 小时前
精密感知赋能具身智能:灵途科技高性能传感器加速机器人多场景落地
人工智能·科技·机器人
深圳多奥智能一卡(码、脸)通系统5 小时前
数据中心机房门禁及智能挡鼠板可联动机器人(AGV)巡检机器狗自动开门过闸详细配置清单采用国密级安全标准,实现AGV/机器狗自主乘梯通行全流程。
机器人·agv·机器狗·门禁·梯控·cpu卡读卡器·国密门禁
C++ 老炮儿的技术栈5 小时前
Qt 开发机器人客户端程序
c语言·开发语言·c++·windows·qt·机器人
Mr.Winter`5 小时前
深度强化学习 | 基于Double DQN算法的移动机器人路径规划(附Pytorch实现)
人工智能·pytorch·深度学习·神经网络·机器人·自动驾驶·具身智能