论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“

目录

摘要

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains.

In this work, we introduce SimVLA , a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control---using a standard vision-language backbone and a lightweight action head---and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to π0.5.

Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations.

结论

In this work, we introduced SimVLA , a minimalist VLA baseline designed to address the challenge of performance attribution in the rapidly evolving VLA landscape. By strictly decoupling perception from control and adhering to a standardized training recipe, we demonstrated that a small backbone can rival or even outperform multi-billion-parameter state-of-the-art baselines.

Our extensive evaluations on simulation benchmarks and real-world robotic tasks confirm that SimVLA achieves superior performance and scene generalization while maintaining a low memory footprint. Crucially, our findings highlight that "silent" implementation details---such as data shuffling strategies, action normalization, and optimization dynamics---are often as influential as architectural novelties. By isolating these factors, SimVLA provides the community with a reproducible reference point.

We hope that this baseline enables researchers to more rigorously quantify the added value of future architectural innovations.

我将为您详细分析这篇关于SimVLA的论文。这是一篇关于视觉-语言-动作(VLA)模型的机器人操控研究论文。

论文概述

SimVLA: A Simple VLA Baseline for Robotic Manipulation

作者:Yuankai Luo, Woping Chen, Tong Liang, Baiqiao Wang, Zhenguo Li*

机构:Frontier Robotics

发表时间:2026年2月(arXiv预印本)


一、研究背景与动机

1.1 领域现状

VLA(Vision-Language-Action)模型已成为通用机器人操控的有前景范式,通过大规模预训练实现强大性能。近期研究提出了多种架构创新:

  • 视觉增强:时序上下文、运动线索(FlowVLA, TraceVLA)
  • 3D空间感知:显式注入几何先验(SpatialVLA, 4D-VLA)
  • 复杂动作表示:扩散策略、离散token化(π0, DD-VLA)

1.2 核心问题

这些进展常伴随混杂变量(confounding variables):

  • 不同的预训练数据集
  • 各异的骨干网络规模
  • 特定的优化调度策略

这使得性能归因(performance attribution)变得困难------难以区分是架构创新的贡献,还是训练配方的差异。

1.3 研究目标

建立透明、可复现的基线 ,通过严格解耦感知与控制,标准化训练动态,证明极简设计也能达到SOTA性能。


二、SimVLA方法详解

2.1 核心设计理念:严格解耦感知与控制

复制代码
┌─────────────────────────────────────────┐
│           VLM Backbone (0.5B)           │
│    (预训练视觉-语言模型,仅作编码器)      │
│         输入: 多视角RGB + 语言指令        │
│         输出: 融合的视觉-语言token        │
└─────────────────┬───────────────────────┘
                  ▼
┌─────────────────────────────────────────┐
│           Action Head (轻量级)           │
│      (标准Transformer Encoder)          │
│  输入: VLM tokens + 本体感知状态 + 时间步 │
│        + 噪声动作块                      │
│  输出: 去噪向量场(连续动作预测)          │
└─────────────────────────────────────────┘

2.2 数学建模

问题形式化 :给定观测 o t = [ I t 1 , . . . , I t n , ℓ t , s t ] o_t = [I_t^1, ..., I_t^n, \ell_t, s_t] ot=[It1,...,Itn,ℓt,st],预测未来动作块 A t = [ a t , a t + 1 , . . . , a t + H − 1 ] ∈ R H × d a A_t = [a_t, a_{t+1}, ..., a_{t+H-1}] \in \mathbb{R}^{H \times d_a} At=[at,at+1,...,at+H−1]∈RH×da

VLM编码
Z t = E ϕ ( I t 1 , . . . , I t n , ℓ t ) Z_t = E_\phi(I_t^1, ..., I_t^n, \ell_t) Zt=Eϕ(It1,...,Itn,ℓt)

流匹配(Flow Matching)

  • 噪声动作: x t = t ϵ + ( 1 − t ) x x_t = t\epsilon + (1-t)x xt=tϵ+(1−t)x,其中 ϵ ∼ N ( 0 , I ) \epsilon \sim \mathcal{N}(0,I) ϵ∼N(0,I), t ∈ ( 0 , 1 ] t \in (0,1] t∈(0,1]
  • 训练目标: L ( θ ) = E [ ∥ v θ ( x t , o t , t ) − ( ϵ − x ) ∥ 2 2 ] L(\theta) = \mathbb{E}\left[\|v_\theta(x_t, o_t, t) - (\epsilon - x)\|_2^2\right] L(θ)=E[∥vθ(xt,ot,t)−(ϵ−x)∥22]

推理:使用少量Euler积分步骤从噪声生成干净动作。

2.3 架构细节

组件 配置
VLM骨干 SmolVLM-0.5B 或 Florence-2 (0.9B)
Action Head Transformer Encoder (1024, 24, 16) ≈ 300M参数
注意力机制 纯自注意力(无交叉注意力、无记忆模块)
条件注入 Token拼接(非AdaLN或交叉注意力)

三、关键创新:标准化训练配方

论文强调**"静默"实现细节**往往比架构差异影响更大:

3.1 数据与表示

因素 关键发现
动作块长度H H=10对LIBERO最优,H=30对真实机器人更好
数据打乱 关闭打乱导致性能崩溃(9.9% vs 98.6%)
动作归一化 关闭归一化严重损害性能(12.3% vs 98.6%)

3.2 优化动态

因素 关键发现
学习率 2×10⁻⁴最优;过大(5×10⁻⁴)或过小(5×10⁻⁵)都显著下降
VLM学习率乘数 0.1(保持预训练知识);设为1.0导致性能暴跌至44.2%
预热步骤 1000步有轻微帮助(96.8% vs 98.6%)
调度器 Cosine decay略有提升(97.5%)

3.3 架构消融

  • Action Head规模:大(300M) vs 小(80M)差异较小(98.6% vs 98.0%)
  • 条件注入方式:Token拼接 > AdaLN (91.1%) > 交叉注意力 (91.5%)
  • VLM骨干:Florence-2与SmolVLM-0.5B相当(97.7% vs 98.6%)

四、实验结果

4.1 仿真基准测试

LIBERO基准(主要结果)
模型 参数量 Spatial Object Goal Long 平均
SimVLA (Ours) 0.5B 99.6 99.8 98.6 96.4 98.6
X-VLA 0.9B 98.2 98.6 97.8 97.6 98.1
VLA-Adapter 0.5B 97.8 99.2 97.2 95.0 97.3
OpenVLA-OFT 7B 97.6 98.4 97.9 94.5 97.1
MemoryVLA 7B 98.4 98.4 96.4 93.4 96.7
π0.5 3B 98.8 98.2 98.0 92.4 96.9

关键发现

  • 仅用0.5B参数超越所有多B参数模型
  • 在Spatial、Object、Goal套件上达到近完美性能
  • 无需机器人预训练,直接从VLM微调
LIBERO-PRO鲁棒性测试
套件 方法 原始 物体 位置 语义 任务
Spatial π0.5 98.0 97.0 20.0 97.0 1.0
SimVLA 99.0 98.0 29.0 98.0 0.0
Goal π0.5 97.0 97.0 38.0 97.0 0.0
SimVLA 99.0 82.0 0.0 99.0 10.0
Long π0.5 93.0 92.0 8.0 93.0 1.0
SimVLA 96.0 61.0 3.0 98.0 10.0
  • 语义鲁棒性:SimVLA在所有套件上达到98-100%
  • 任务级泛化:显著优于基线(OpenVLA和π0.5接近0%)
  • 位置鲁棒性:仍是挑战(Spatial 29%,其他套件更低)
WidowX与Google Robot

WidowX (表4):SimVLA达到95.8%,与X-VLA持平,超越MemoryVLA (71.9%)

Google Robot (表5):SimVLA平均76.1%,超越SpatialVLA (67.5%)和RT-2-X (65.6%)

4.2 真实机器人实验

平台:Galaxea R1 Lite(移动双臂机器人,23自由度)

协议:零样本跨场景泛化(训练场景→全新测试场景)

任务 SimVLA π0.5
Store Dolls ~85% ~82%
Arrange Egg ~78% ~85%
Put Flower ~48% ~45%
Put Pen ~55% ~62%
Wipe Desktop ~82% ~78%
Fold Clothes ~8% ~10%
Pick Garbage ~82% ~75%
Open Drawer ~88% ~80%

结论 :SimVLA与π0.5性能相当,但SimVLA无机器人预训练,π0.5使用公开权重初始化。

4.3 效率对比

模型 参数量 LIBERO平均 峰值显存(GB)
OpenVLA-OFT 7B 97.1% 62.0
π0.5 3B 96.9% 51.3
VLA-Adapter 0.5B 97.3% 24.7
SimVLA 0.5B 98.6% 9.3

显存效率提升 :比VLA-Adapter低2.7× ,比OpenVLA-OFT低6.7×


五、核心贡献总结

  1. 极简基线:严格解耦感知(VLM编码器)与控制(轻量Action Head),证明简单设计可达SOTA

  2. 训练配方标准化:识别并控制"静默"性能驱动因素(数据打乱、归一化、优化动态),实现公平比较

  3. 性能与效率:0.5B参数超越多B参数模型,显存占用仅9.3GB,支持高效部署

  4. 未来兼容性:模块化设计允许无缝替换最新VLM骨干,无需重新设计复杂适配器


六、局限性与未来方向

局限性 说明
位置鲁棒性 LIBERO-PRO中位置扰动性能仍较低
多模态动作分布 流匹配假设单峰分布,未显式建模多模态
长时程任务 Long套件性能(96.4%)低于Spatial/Object(99%+)

未来工作

  • 结合SimVLA的极简哲学与选择性架构增强(如轻量级记忆机制)
  • 在保持效率的同时提升3D空间推理能力
  • 探索更大规模VLM骨干在标准化配方下的 scaling law

七、论文价值与影响

方法论意义

  • "反潮流"研究 :在复杂架构趋势下,证明实现细节>架构复杂度
  • 可复现性:提供透明、标准化的训练配方,降低社区入门门槛
  • 性能归因:建立清晰基线,使未来架构创新的贡献可量化

实践意义

  • 资源友好:9.3GB显存使VLA研究对学术实验室更可及
  • 部署便利:模块化设计简化真实机器人系统集成
  • 即插即用:VLM骨干可独立升级,保护长期投资

这篇论文通过严谨的实验设计和透明的报告,为VLA领域提供了宝贵的基线参考,其"简单但强大"的理念可能对机器人学习社区产生深远影响。

相关推荐
m0_650108243 小时前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
晓山清1 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR
论文阅读
张较瘦_1 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道
论文阅读·人工智能·软件工程
张较瘦_1 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解
论文阅读·人工智能·软件工程
一颗小树x1 天前
《VLA 系列》DM0 | 流匹配 | 具身空间推理增强 | 空间思维链
vla·流匹配·dm0·具身空间推理·空间思维链
Matrix_112 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(二)
论文阅读·人工智能
BackCatK Chen2 天前
2026智驾决赛圈:洗牌、技术决战与3大生死门槛
算法·华为·gpu算力·vla·世界模型
万里鹏程转瞬至3 天前
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
论文阅读·深度学习·aigc
Matrix_113 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(一)
论文阅读·人工智能