【Robot】:机器人学习策略(ACT、Diffusion Policy 与 π0.5 对比)

ACT、Diffusion Policy 与 π0.5 策略对比

基于搜索结果,我来为您详细对比这三种机器人学习策略的异同点。这三种策略代表了从经典模仿学习到生成式模型再到视觉-语言-动作大模型的技术演进路径。


一、核心定位与类型

策略 类型 核心思想 发布时间
ACT 动作分块Transformer + CVAE 预测固定长度的动作块,降低任务有效时长 2023-2024年
Diffusion Policy 扩散生成模型 将策略建模为条件去噪扩散过程 2023年
π0.5 视觉-语言-动作大模型 基于VLA架构,预训练+微调范式 2025年4月

二、核心技术原理

1. ACT (Action Chunking with Transformers)

ACT的核心创新是动作分块条件变分自编码器的结合。

动作分块机制:传统模仿学习每步预测一个动作,容易产生累计误差。ACT一次性预测未来k个动作(chunk_size通常为100),将有效任务时长从500步缩短到5步,大幅降低了累计误差。

CVAE结构:ACT采用条件变分自编码器处理人类演示数据的随机性。编码器将动作序列压缩为隐变量z(风格变量),解码器根据z和当前观测生成动作块。推理时z置零,输出平均策略。

时序集成:为了解决分块导致的动作突变问题,ACT使用指数衰减权重对重叠的预测块进行加权平均,实现平滑执行。

2. Diffusion Policy

Diffusion Policy将策略建模为条件去噪扩散过程

核心思想:从高斯噪声开始,经过多步迭代去噪,逐步恢复出真实动作序列。这相当于学习动作分布的梯度场,通过郎之万动力学采样生成动作。

关键优势

  • 自然表达多模态动作分布(应对同一任务的不同演示风格)
  • 稳定训练(无需像GAN那样进行对抗训练)
  • 适合高维动作空间

网络结构:采用U-Net架构,将视觉观测作为条件输入。视觉特征通过ResNet提取后,以FiLM方式注入U-Net的各个层次。

3. π0.5

π0.5是Physical Intelligence公司开发的视觉-语言-动作大模型

分层架构

  • 高层推理:预测语义子任务(如"拿起杯子"、"放入水槽")
  • 低层推理:生成具体的机器人动作块

训练范式:采用预训练+后训练两阶段。预训练使用多源异构数据(含网络数据、其他机器人数据),建立基础能力;后训练针对目标机器人定向微调。

动作表示:使用FAST动作分词器将连续动作压缩为离散Token,支持自回归Transformer架构的高效训练。

三、关键特性对比

特性 ACT Diffusion Policy π0.5
动作表示 连续动作块 连续动作轨迹 FAST离散Token
处理多模态 有限(通过CVAE) 强(天然支持) 强(通过语义分层)
泛化能力 任务内泛化 任务内泛化 开放世界泛化(新物体、新环境)
实时性 0.01秒推理 需多步去噪(可优化) 实时(RTC算法支持)
数据效率 高(50个演示即可) 需要大规模预训练
长时序任务 分块支持 通过滑动窗口 分层推理支持10-15分钟任务

四、性能与场景

ACT适用场景

  • 精细操作:如穿拉链、装电池、开盖子等,成功率80-96%
  • 数据稀缺:50个演示即可训练
  • 实时控制:0.01秒推理时间

典型应用:Mobile Aloha的双臂操作任务(叠衣服、做饭)

Diffusion Policy适用场景

  • 多模态动作分布:演示数据包含多种成功路径时表现优异
  • 高维动作空间:如6自由度机械臂+夹爪控制
  • 稳定训练:几乎无需调参,benchmark平均提升46.9%

π0.5适用场景

  • 开放世界泛化:能在未训练过的住宅环境中执行任务
  • 长时程任务:10-15分钟的复杂任务序列(如整理床铺、挂毛巾)
  • 语义理解:接收自然语言指令,自主规划子任务

数据规模:预训练使用了超1万小时数据,涵盖7种机器人本体

五、选择建议

如果您需要... 推荐选择
快速部署特定精细操作任务,演示数据有限 ACT
处理有多样化演示路径的任务,追求训练稳定性 Diffusion Policy
开放环境泛化,理解自然语言指令,长时任务规划 π0.5
最简单的入门实验 ACT(LeRobot直接支持)

这三种策略并非互斥------π0.5的后训练阶段实际上结合了扩散/流匹配方法,而实时动作分块算法(RTC)可应用于任何基于扩散的VLA模型。在实际应用中,可以根据任务需求选择合适的技术路线。

相关推荐
kyle~3 分钟前
机器人广域网通信---MQTT技术
大数据·c++·机器人·ros2
MIXLLRED4 分钟前
随笔——ROS Ubuntu版本变化详解
linux·ubuntu·机器人·ros
boss-dog22 分钟前
3D视觉机器人中手眼标定的精度提升方法记录——ICP算法
算法·3d·机器人·手眼标定·icp
xp_fangfei1 小时前
相机标定之--张正友标定法
计算机视觉·机器人
QYR-分析1 小时前
小型战术地面机器人(STGR)行业全景分析及市场机遇展望
人工智能·机器人
胡摩西2 小时前
室内定位技术方法汇总:从WiFi到超声波,机器人如何在室内“找准自己”?
人工智能·机器人·slam·室内定位·roomaps
PNP Robotics2 小时前
集智联机器人(PNP)亮相第三届中国具身智能大会,以“双臂+遥操作“多维方案定义具身交互新范式
大数据·人工智能·python·深度学习·机器人
鲁邦通物联网13 小时前
架构实战:基于机器视觉的机器人自主乘梯状态机与人机分流设计
机器人·机器人梯控·agv梯控·非侵入式采集·机器人乘梯·机器人自主乘梯·agv机器人梯控
步步精BBJconn17 小时前
从消费电子到机器人,步步精科技如何切入连接器高端赛道
科技·机器人
MarkHD17 小时前
RPA进阶实战:集成邮件自动化与API,构建企业级智能流程机器人
机器人·自动化·rpa