SmolVLA模型整体结构解读

SmolVLA（Small Vision-Language-Action model）是一个轻量级（约5亿参数）、端到端的视觉-语言-动作（VLA）模型，专为机器人控制设计，基于统一Transformer骨干与流匹配（Flow Matching）训练，实现"看图+听指令→生成连续关节动作"的多模态推理。

一、整体结构

SmolVLA 的核心并非简单的模型蒸馏，而是一次针对机器人任务特性的架构重构。它基于 Hugging Face 的 SmolVLM-2 骨干，通过一系列大胆的"剪裁"与"重组"，实现了极致的效率。

模型整体结构如下图所示：

1）输入层接受多视角图像与语言指令；

2）VLM主干网络仅启用前N层（Layer Skipping），提取中层特征并进行Token压缩；

3）特征注入动作专家网络；

4）动作专家采用交错的自注意力（SA）和交叉注意力（CA），结合流匹配（Flow Matching）目标函数，最终输出平滑的动作块（Action Chunk）。

二、模块儿讲解

如上图所示，SmolVLA主要分左右两部分构成。

1、SmolVLM-2 模块部分

1）策略性层跳过：寻找"语义"与"几何"的平衡点

在视觉语言模型（VLM）中，通常的做法是利用 Transformer 的最后一层输出特征来生成文本。然而，对于机器人操作任务而言，这并非是一个最优解。

最新的可解释性研究表明，深度神经网络的层级功能存在分化：深层网络（Later Layers）倾向于提取高度抽象的语义 信息（Semantics），例如"这是一个杯子"；而浅层和中层网络（Early/Middle Layers）则保留了更多关于物体位置、形状、姿态的空间几何信息（Spatial Geometry）7。对于机械臂抓取任务，知道"杯子在哪里"和"杯把朝向哪里"往往比知道"这是个杯子"更重要。

SmolVLA 采取了 Layer Skipping（层跳过）策略：

机制：在推理阶段，模型直接截断了 VLM 后半部分（L-N 层）的计算，仅利用前 N 层的特征输出。
配置：具体而言，SmolVLA 将 N 设定为总层数的一半（N=L/2），即仅使用前 16 层特征。
收益：这一操作直接将 VLM 部分的计算量和显存占用砍半，显著提升了推理速度，同时由于利用了包含更多空间信息的特征，反而提升了操作精度。

2）视觉 Token 的极致压缩：告别冗余

OpenVLA 等模型为了看清细节，往往采用高分辨率图像并切分为数百个 Patch Token，导致序列极长，推理沉重。SmolVLA 进行了视觉 Token 压缩：

去切片化（No Image Tiling）：放弃了复杂的图像切片技术，仅输入全局图像。
Pixel Shuffle 压缩：通过 Pixel Shuffle 技术，将每帧 512x512 的图像压缩为仅 64 个视觉 Token。
多视角融合：这种极致的压缩使得模型能够轻松同时处理多个摄像头（如顶视图、侧视图、腕部相机）的输入流，而不会挤爆显存。对于机器人操作，多视角带来的三维感知增益远大于单张超高分图像的细节增益。

2、动作专家（Action Expert）：流匹配与交错注意力

SmolVLA 并没有让 VLM 直接解码动作，而是引入了一个独立的、约 1 亿参数的 Action Expert 模块。这个模块的设计体现了对时序控制的深刻理解。

1）流匹配（Flow Matching）

这是 SmolVLA 与基于扩散模型（Diffusion Policy）的 Pi0 或离散 Token 的 OpenVLA 最大的区别。

原理：流匹配可以被视为一种非随机的、确定性的生成过程。它并非像扩散模型那样通过随机去噪来生成动作，而是学习一个向量场（Vector Field），将初始的噪声分布沿着一条直线轨迹（Straight Flow）平滑地"推"向目标动作分布。
优势：扩散模型通常需要 50-100 步迭代才能生成高质量动作，而流匹配由于轨迹更直，通常只需 10 步甚至更少即可完成推理。这在保证动作生成质量（如多模态分布处理能力）的同时，极大地降低了推理延迟。

2）交错式注意力（Interleaved Attention）

在 Action Expert 的内部结构上，SmolVLA 创新性地采用了交叉注意力（CA）与因果自注意力（SA）交错排列的设计：

CA 层：负责"感知"。动作 Query 与 VLM 输出的视觉+语言特征进行交互，确保动作符合当前的感知输入。
SA 层：负责"平滑"。当前的动作 Token 与历史生成的动作 Token 进行交互，确保动作序列在时间上的连贯性，避免抖动。
对比：纯 CA 结构容易导致动作不连贯，纯 SA 结构容易忽视环境变化。交错设计完美平衡了环境响应（Grounding）与动作平滑（Smoothness）。