Mobile ALOHA前传之VINN, Diffusion Policy和ACT对比

	VINN	Diffusion Policy	ACT
核心思想	1.从离线数据中自监督学习获得一个视觉编码器；2.基于视觉编码器，从采集的示例操作数据中检索与当前观测图像最相似的N张图像以及对应的动作；3.基于图像编码器的距离对各个动作进行加权平均，获得最终的动作	1.关注动作输出端而不是输入端；2.预测的是动作概率，而不是确定性的动作	1.使用基于Transformer架构的生成式模型（conditional variational autoencoder (CVAE)）来生成动作；2.生成未来一段时间的动作而不是下一步动作，降低复合累计误差；3.使用Temporal Ensemble提高动作光滑度
动作	相机位姿+夹爪闭合	机械臂末端位姿	遥操作手臂的关节位置和夹爪闭合
观测	机械臂上第一视角图像	连续多帧第三视角观测图像	抓取物体机械臂的当前关节位置和第三视角四张观测图像
网络预测结果	观测图像编码向量，通过相似度匹配间接计算下一时刻动作	未来一系列时刻的动作	未来一系列时刻的动作
解决的挑战及对应方法	端到端学习将视觉表征学习和动作生成耦合在一起，需要大量数据：将视觉表征学习和动作生成解耦；	1.机器人动作MultiModal的问题(解决某一特定任务的方式是多样的，但神经网络预测只能给出单一的方式，无法应对可能有多种方式的任务情况); 2.可很好在高维空间预测未来多步动作；3.训练过程通过建模成去噪过程，训练非常稳定。	1.降低复合累计误差(compounding errors)：使用action chunking;2.提高动作光滑度：采用Temporal Ensemble; 3.克服人类示教的噪声：使用基于Transformer编码-解码架构的生成式方法来训练
局限性和未来展望	局限性：对新场景泛化性不佳；训练的模型只能执行单任务；只用任务相关的数据进行预训练，性能不够好。未来展望：利用持续表征学习来提升泛化性；使用更大规模任务不相关数据来进行预训练，提升性能；多任务学习。	局限性：继承了行为克隆的缺点，如泛化性不够；算力消耗大，推理时延高；未来展望：采用强化学习来克服行为克隆的缺点；借鉴diffusion模型的加速方法	失败动作：打开糖果，将平躺的封口包包打开，需要多指操作的任务，分析原因在于这类示教数据难以获得，感知很难，夹爪硬件限制。未来展望：使用更多数据进行预训练，从软硬件提升感知能力。