技术栈
smolvla
qq_41920323
15 小时前
smolvla
SmolVLA模型整体结构解读
SmolVLA(Small Vision-Language-Action model)是一个轻量级(约5亿参数)、端到端的视觉-语言-动作(VLA)模型,专为机器人控制设计,基于统一Transformer骨干与流匹配(Flow Matching)训练,实现“看图+听指令→生成连续关节动作”的多模态推理。
贾全
10 个月前
人工智能
·
机器人
·
大模型
·
vla
·
smolvla
【中文翻译】SmolVLA:面向低成本高效机器人的视觉-语言-动作模型
本文翻译自《SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics》,旨在促进相关技术在国内学术界的传播和发展。
我是有底线的