视觉语言动作模型

数据与后端架构提升之路8 天前
机器人·视觉语言动作模型·rt-2模型·google deepmind·链式思维推理
RT-2:Google DeepMind的机器人革命——如何让AI从网页知识中学会操控现实世界大家好,我是数据与算法架构提升之路,一个专注AI和机器人技术的博主。今天,我们来聊聊Google DeepMind在2023年推出的重磅模型——RT-2 (Robotic Transformer 2)。这个模型不是简单的聊天机器人,而是将互联网上的海量知识直接转化为机器人动作控制的“超级大脑”。想象一下,一个机器人能理解“捡起像锤子一样的东西”(比如石头),或者根据“我累了”自动递上能量饮料?这不是科幻,而是RT-2的真实能力!
v_JULY_v10 个月前
vla·视觉语言动作模型·π0·π0-fast·高效动作token化技术·π0开源了
π0开源了且推出自回归版π0-FAST——打造机器人动作专用的高效Tokenizer:比扩散π0的训练速度快5倍但效果相当过去的半个多月进一步讲,以上的「大模型和具身」这两大热点是否可以结合呢?那可太多了,详见此文《2024具身智能模型汇总:从训练数据、动作预测、训练方法到Robotics VLM、VLA》
v_JULY_v10 个月前
具身智能·robovlm·通用机器人策略·vla设计哲学·vlm fot robot·视觉语言动作模型
RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现
我是有底线的