技术栈

全身vla

v_JULY_v
5 小时前
ψ0·全身vla
Ψ0——人形全身VLA:先用800h人类自视角视频数据预训练VLM,再用30h的真实机器人交互数据训练MM-DiT,最后用AMO做下肢RL跟踪对于本文要介绍的Ψ0如原论文所说,大规模遥操作数据,对于人形机器人行走-操作任务来说在成本上极其高昂且在采集上极具挑战性
我是有底线的