smolvla - smolvla技术,学习,经验文章

qq_41920323

2 个月前

SmolVLA模型整体结构解读SmolVLA（Small Vision-Language-Action model）是一个轻量级（约5亿参数）、端到端的视觉-语言-动作（VLA）模型，专为机器人控制设计，基于统一Transformer骨干与流匹配（Flow Matching）训练，实现“看图+听指令→生成连续关节动作”的多模态推理。