技术栈

视觉语言动作模型

v_JULY_v
3 个月前
vla·视觉语言动作模型·π0·π0-fast·高效动作token化技术·π0开源了
π0开源了且推出自回归版π0-FAST——打造机器人动作专用的高效Tokenizer:比扩散π0的训练速度快5倍但效果相当过去的半个多月进一步讲,以上的「大模型和具身」这两大热点是否可以结合呢?那可太多了,详见此文《2024具身智能模型汇总:从训练数据、动作预测、训练方法到Robotics VLM、VLA》
v_JULY_v
3 个月前
具身智能·robovlm·通用机器人策略·vla设计哲学·vlm fot robot·视觉语言动作模型
RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现