视觉语言动作模型

数据与后端架构提升之路

RT-2：Google DeepMind的机器人革命——如何让AI从网页知识中学会操控现实世界大家好，我是数据与算法架构提升之路，一个专注AI和机器人技术的博主。今天，我们来聊聊Google DeepMind在2023年推出的重磅模型——RT-2 (Robotic Transformer 2)。这个模型不是简单的聊天机器人，而是将互联网上的海量知识直接转化为机器人动作控制的“超级大脑”。想象一下，一个机器人能理解“捡起像锤子一样的东西”（比如石头），或者根据“我累了”自动递上能量饮料？这不是科幻，而是RT-2的真实能力！

π0开源了且推出自回归版π0-FAST——打造机器人动作专用的高效Tokenizer：比扩散π0的训练速度快5倍但效果相当过去的半个多月进一步讲，以上的「大模型和具身」这两大热点是否可以结合呢？那可太多了，详见此文《2024具身智能模型汇总：从训练数据、动作预测、训练方法到Robotics VLM、VLA》

RoboVLM——通用机器人策略的VLA设计哲学：如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据本博客内解读不少VLA模型了，包括π0等，且如此文的开头所说前两天又重点看了下openvla，和cogact，发现

我是有底线的