SmolVLA(Small Vision-Language-Action model)是一个轻量级(约5亿参数)、端到端的视觉-语言-动作(VLA)模型,专为机器人控制设计,基于统一Transformer骨干与流匹配(Flow Matching)训练,实现"看图+听指令→生成连续关节动作"的多模态推理。
一、整体结构
SmolVLA 的核心并非简单的模型蒸馏,而是一次针对机器人任务特性的架构重构。它基于 Hugging Face 的 SmolVLM-2 骨干,通过一系列大胆的"剪裁"与"重组",实现了极致的效率。
模型整体结构如下图所示:

1)输入层接受多视角图像与语言指令;
2)VLM主干网络仅启用前N层(Layer Skipping),提取中层特征并进行Token压缩;
3)特征注入动作专家网络;
4)动作专家采用交错的自注意力(SA)和交叉注意力(CA),结合流匹配(Flow Matching)目标函数,最终输出平滑的动作块(Action Chunk)。
二、模块儿讲解
如上图所示,SmolVLA主要分左右两部分构成。
1、SmolVLM-2 模块部分
1)策略性层跳过:寻找"语义"与"几何"的平衡点
在视觉语言模型(VLM)中,通常的做法是利用 Transformer 的最后一层输出特征来生成文本。然而,对于机器人操作任务而言,这并非是一个最优解。
最新的可解释性研究表明,深度神经网络的层级功能存在分化:深层网络(Later Layers)倾向于提取高度抽象的语义 信息(Semantics),例如"这是一个杯子";而浅层和中层网络(Early/Middle Layers)则保留了更多关于物体位置、形状、姿态的空间几何信息(Spatial Geometry)7。对于机械臂抓取任务,知道"杯子在哪里"和"杯把朝向哪里"往往比知道"这是个杯子"更重要。
SmolVLA 采取了 Layer Skipping(层跳过) 策略:
-
机制: 在推理阶段,模型直接截断了 VLM 后半部分(L-N 层)的计算,仅利用前 N 层的特征输出。
-
配置: 具体而言,SmolVLA 将 N 设定为总层数的一半(N=L/2),即仅使用前 16 层特征。
-
收益: 这一操作直接将 VLM 部分的计算量和显存占用砍半,显著提升了推理速度,同时由于利用了包含更多空间信息的特征,反而提升了操作精度。
2)视觉 Token 的极致压缩:告别冗余
OpenVLA 等模型为了看清细节,往往采用高分辨率图像并切分为数百个 Patch Token,导致序列极长,推理沉重。SmolVLA 进行了视觉 Token 压缩:
-
去切片化(No Image Tiling): 放弃了复杂的图像切片技术,仅输入全局图像。
-
Pixel Shuffle 压缩: 通过 Pixel Shuffle 技术,将每帧 512x512 的图像压缩为仅 64 个视觉 Token。
-
多视角融合: 这种极致的压缩使得模型能够轻松同时处理多个摄像头(如顶视图、侧视图、腕部相机)的输入流,而不会挤爆显存。对于机器人操作,多视角带来的三维感知增益远大于单张超高分图像的细节增益。
2、动作专家(Action Expert):流匹配与交错注意力
SmolVLA 并没有让 VLM 直接解码动作,而是引入了一个独立的、约 1 亿参数的 Action Expert 模块。这个模块的设计体现了对时序控制的深刻理解。
1)流匹配(Flow Matching)
这是 SmolVLA 与基于扩散模型(Diffusion Policy)的 Pi0 或离散 Token 的 OpenVLA 最大的区别。
-
原理: 流匹配可以被视为一种非随机的、确定性的生成过程。它并非像扩散模型那样通过随机去噪来生成动作,而是学习一个向量场(Vector Field),将初始的噪声分布沿着一条直线轨迹(Straight Flow)平滑地"推"向目标动作分布。
-
优势: 扩散模型通常需要 50-100 步迭代才能生成高质量动作,而流匹配由于轨迹更直,通常只需 10 步 甚至更少即可完成推理。这在保证动作生成质量(如多模态分布处理能力)的同时,极大地降低了推理延迟。
2)交错式注意力(Interleaved Attention)
在 Action Expert 的内部结构上,SmolVLA 创新性地采用了 交叉注意力(CA) 与 因果自注意力(SA) 交错排列的设计:
-
CA 层: 负责"感知"。动作 Query 与 VLM 输出的视觉+语言特征进行交互,确保动作符合当前的感知输入。
-
SA 层: 负责"平滑"。当前的动作 Token 与历史生成的动作 Token 进行交互,确保动作序列在时间上的连贯性,避免抖动。
-
对比: 纯 CA 结构容易导致动作不连贯,纯 SA 结构容易忽视环境变化。交错设计完美平衡了环境响应(Grounding)与动作平滑(Smoothness)。