Mobile ALOHA前传之VINN, Diffusion Policy和ACT对比

VINN Diffusion Policy ACT
核心思想 1.从离线数据中自监督学习获得一个视觉编码器;2.基于视觉编码器,从采集的示例操作数据中检索与当前观测图像最相似的N张图像以及对应的动作;3.基于图像编码器的距离对各个动作进行加权平均,获得最终的动作 1.关注动作输出端而不是输入端;2.预测的是动作概率,而不是确定性的动作 1.使用基于Transformer架构的生成式模型(conditional variational autoencoder (CVAE))来生成动作;2.生成未来一段时间的动作而不是下一步动作,降低复合累计误差;3.使用Temporal Ensemble提高动作光滑度
动作 相机位姿+夹爪闭合 机械臂末端位姿 遥操作手臂的关节位置和夹爪闭合
观测 机械臂上第一视角图像 连续多帧第三视角观测图像 抓取物体机械臂的当前关节位置和第三视角四张观测图像
网络预测结果 观测图像编码向量,通过相似度匹配间接计算下一时刻动作 未来一系列时刻的动作 未来一系列时刻的动作
解决的挑战及对应方法 端到端学习将视觉表征学习和动作生成耦合在一起,需要大量数据:将视觉表征学习和动作生成解耦; 1.机器人动作MultiModal的问题(解决某一特定任务的方式是多样的,但神经网络预测只能给出单一的方式,无法应对可能有多种方式的任务情况); 2.可很好在高维空间预测未来多步动作;3.训练过程通过建模成去噪过程,训练非常稳定。 1.降低复合累计误差(compounding errors):使用action chunking;2.提高动作光滑度:采用Temporal Ensemble; 3.克服人类示教的噪声:使用基于Transformer编码-解码架构的生成式方法来训练
局限性和未来展望 局限性: 对新场景泛化性不佳; 训练的模型只能执行单任务;只用任务相关的数据进行预训练,性能不够好。未来展望: 利用持续表征学习来提升泛化性;使用更大规模任务不相关数据来进行预训练,提升性能;多任务学习。 局限性: 继承了行为克隆的缺点,如泛化性不够;算力消耗大,推理时延高;未来展望: 采用强化学习来克服行为克隆的缺点;借鉴diffusion模型的加速方法 失败动作: 打开糖果,将平躺的封口包包打开,需要多指操作的任务,分析原因在于这类示教数据难以获得,感知很难,夹爪硬件限制。 未来展望: 使用更多数据进行预训练,从软硬件提升感知能力。
相关推荐
阿坡RPA8 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户27784491049938 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心8 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI10 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c11 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得20511 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清12 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh12 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员12 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物12 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技