《VLA 系列》SimpleVLA-RL | 端到端在线强化学习

本文分析SimpleVLA-RL ，它是一款端到端在线强化学习 的VLA框架。

核心目标*是解决VLA模型面临的两个挑战：

数据稀缺，大规模人类操作机器人轨迹昂贵难获取
泛化能力有限，对分布偏移任务适应性差

论文地址：SimpleVLA-RL: Scaling VLA Training via Reinforcement Learnin

开源地址：https://github.com/PRIME-RL/SimpleVLA-RL

一、核心概述

核心设计 ：

基于LLM通用RL框架扩展，融入VLA特定设计，交互式轨迹采样、可扩展并行化、多环境渲染、优化损失计算。
并通过三大探索增强策略，动态采样、更高裁剪范围、更高采样温度，提升性能。
结果奖励建模，二元奖励：任务成功=1，失败=0。
训练目标，基于GRPO算法，去除KL正则化。

这张图从数据稀缺、任务性能、策略创新、泛化能力四个维度，集中验证了SimpleVLA-RL的核心价值，核心结论如下：

缓解数据稀缺 ：仅用"单轨迹SFT"（1条任务演示）+SimpleVLA-RL，就能让LIBERO-Long任务成功率从17.3%提升至91.7%（+74.4%），甚至超越"全轨迹SFT"（86.5%），证明RL可大幅降低VLA模型对海量离线数据的依赖。
提升仿真与实世界性能：
- 仿真任务：SimpleVLA-RL在LIBERO（99.1%）、RoboTwin2.0（68.8%）、RoboTwin1.0（70.4%）的成功率远超SFT-only和基线模型（π₀、RDT）；
- 实世界任务：仅用仿真训练的SimpleVLA-RL，4个实世界任务平均成功率达39%，显著优于SFT-only和RDT。
促成策略创新 ：SimpleVLA-RL让模型探索出训练数据中未有的"pushcut"新策略（用"推"替代SFT的"抓取"动作），证明RL能突破人类操作模式的局限，自主发现更高效的行为。
增强多维度泛化 ：在空间、物体、任务维度，SimpleVLA-RL的unseen任务成功率远高于SFT，且随seen任务性能提升，泛化能力持续增强，具备强跨场景/物体/任务的适配性。

二、框架设计分析：VLA与LLM的RL本质差异及算法基础

通过明确LLM与VLA的RL公式差异，定位适配矛盾，引入GRPO算法提供底层支撑；这些是SimpleVLA-RL框架设计的理论基础。

1. LLM的RL范式：静态、离散、无交互的文本生成逻辑

状态（ s t s_t st） ：纯文本序列聚合，由"初始提示词+已生成令牌"构成，单模态、静态不变。
动作（ a t a_t at） ：离散令牌采样，从模型词汇表 V V V中选择下一个令牌，概率化分布支持RL梯度计算。
环境（Env） ：结果导向的奖励反馈，无状态转移、无中间反馈，仅在序列生成完成后给出奖励。
Rollout（轨迹生成） ：自回归静态生成，无需环境交互，生成全程无反馈调整。

2. VLA的RL范式：动态、连续、强交互的机器人操作逻辑

维度	VLA的RL具体定义	与LLM的核心差异	带来的核心挑战
状态（ s t s_t st）	多模态融合： s t = ( o t v i s , o t p r o p , l t a s k ) s_t = (o_t^{vis}, o_t^{prop}, l_{task}) st=(otvis,otprop,ltask) - o t v i s o_t^{vis} otvis：视觉观测（RGB图、深度图） - o t p r o p o_t^{prop} otprop：本体感受（关节角度、末端执行器姿态） - l t a s k l_{task} ltask：语言指令	从"单模态文本"到"多模态物理信息"，状态随环境动态变化	状态维度高、融合难度大，计算成本高
动作（ a t a_t at）	连续控制指令： a t ∈ R d a_t \in \mathbb{R}^d at∈Rd（如 d = 7 d=7 d=7表示6-DoF姿态+夹爪位置），通过解码器生成	从"离散令牌"到"连续向量"，动作直接影响物理环境	连续动作的采样和梯度计算更复杂，无法直接套用LLM逻辑
环境（Env）	物理/仿真环境： - 状态转移： s t + 1 = E n v ( s t , a t ) s_{t+1} = Env(s_t, a_t) st+1=Env(st,at) - 奖励： R = α R o u t c o m e + ∑ w i ϕ i ( s t , a t ) R = \alpha R_{outcome} + \sum w_i \phi_i(s_t,a_t) R=αRoutcome+∑wiϕi(st,at)	从"无状态转移"到"闭环动态交互"，环境是训练核心参与者	环境交互速度慢、成本高，过程奖励设计复杂
Rollout（轨迹生成）	迭代交互生成：生成动作块→执行→更新状态→循环，依赖实时环境反馈。思路流程： 1. 模型输入当前状态 s t s_t st，生成长度为 k k k 的动作块 ( a t , . . . , a t + k − 1 ) (a_t, ..., a_{t+k-1}) (at,...,at+k−1) 2. 机器人执行动作块，环境更新状态为 s t + k s_{t+k} st+k 3. 模型输入 s t + k s_{t+k} st+k，生成下一个动作块 4. 重复至任务完成或达到最大步数，生成完整轨迹 τ = ( ( s 0 , a 0 ) , . . . , ( s T , a T ) ) \tau = ((s_0,a_0), ..., (s_T,a_T)) τ=((s0,a0),...,(sT,aT))	从"静态一次性生成"到"动态闭环生成"，轨迹依赖实时环境反馈	Rollout效率极低（单条轨迹生成时间是LLM的10倍以上），且需处理动作执行后的状态噪声

3. 核心算法：Group Relative Policy Optimization（GRPO）

（1）GRPO的核心逻辑

传统RL痛点：需训练价值网络估计状态价值，易过拟合导致优势估计偏差。
GRPO创新：通过"组内轨迹对比"计算优势，无需价值网络。流程为：
1. 用行为政策 π θ o l d \pi_{\theta_{old}} πθold生成 G G G条轨迹 { τ i } i = 1 G \{\tau_i\}_{i=1}^G {τi}i=1G；
2. 计算每条轨迹的总奖励 R i R_i Ri；
3. 组相对归一化得到优势： A ^ i = R i − m e a n ( { R i } ) s t d ( { R i } ) \hat{A}_i = \frac{R_i - mean(\{R_i\})}{std(\{R_i\})} A^i=std({Ri})Ri−mean({Ri})。

（2）GRPO的核心公式

重要性采样比： r i , t ( θ ) = π θ ( a i , t ∣ s i , t ) π θ o l d ( a i , t ∣ s i , t ) r_{i,t}(\theta) = \frac{\pi_\theta(a_{i,t} | s_{i,t})}{\pi_{\theta_{old}}(a_{i,t} | s_{i,t})} ri,t(θ)=πθold(ai,t∣si,t)πθ(ai,t∣si,t)（限制政策更新步长）
优化目标： L G R P O = E [ min ⁡ ( r i , t A ^ i , c l i p ( r i , t , 1 − ϵ , 1 + ϵ ) A ^ i ) − β K L ( π θ ∣ ∣ π r e f ) ] L_{GRPO} = \mathbb{E}\left[ \min(r_{i,t}\hat{A}i, clip(r{i,t}, 1-\epsilon, 1+\epsilon)\hat{A}i) - \beta KL(\pi\theta || \pi_{ref}) \right] LGRPO=E[min(ri,tA^i,clip(ri,t,1−ϵ,1+ϵ)A^i)−βKL(πθ∣∣πref)]

（3）GRPO适配VLA的核心优势

无需价值网络：简化训练流程，避免价值估计偏差，适配VLA多模态、高噪声状态；
支持并行训练：组内轨迹可独立生成和计算优势，匹配SimpleVLA-RL的并行化设计；
稳定性强：裁剪机制和KL正则化限制政策突变，适配VLA长horizon轨迹训练。

4. 小结

明确VLA与LLM的RL差异，定位核心挑战，为后续框架设计提供"问题靶点"：

针对VLA的闭环交互需求，设计"交互式VLA Rollout"；
针对Rollout效率低，设计"可扩展并行化+多环境渲染"；
针对奖励设计复杂，简化为"结果奖励建模"；
以GRPO为基础，优化训练目标。

三、SimpleVLA-RL框架核心设计

首先看一下SimpleVLA-RL的模型架构，如下图所示。

对比了SFT（监督微调）与SimpleVLA-RL的思路流程，核心是展现 "被动依赖离线数据" 与 "主动在线交互优化" 的范式差异。

维度	SFT流程	SimpleVLA-RL流程
数据来源	静态离线人类轨迹（被动依赖）	动态在线环境交互轨迹（主动生成）
环境参与度	无环境交互（训练与环境分离）	闭环交互（环境是训练的核心参与者）
优化逻辑	模仿已有行为（监督学习）	奖励驱动探索（强化学习）
泛化能力支撑	依赖训练数据覆盖范围	依赖主动探索的多样化轨迹

SimpleVLA-RL流程分为 "闭环Rollout生成轨迹"→"组优势计算奖励"→"策略迭代更新" 三个核心环节，形成"交互-评估-优化"的循环：

环节1：Rollout（轨迹生成）------Policy与环境的闭环交互

这是SimpleVLA-RL突破SFT局限的核心步骤：

输入：当前环境状态 $S_t$（视觉+本体感受+语言指令的多模态信息）；
交互循环：
1. Policy接收状态 S t S_t St，输出机器人动作 A t A_t At；
2. 环境执行动作 A t A_t At，更新为新状态 S t + 1 S_{t+1} St+1；
3. 新状态 S t + 1 S_{t+1} St+1 反馈给Policy，重复上述步骤，直到任务完成或达到最大步数，生成一条完整轨迹 τ \tau τ。
本质：主动探索生成数据------不再依赖静态离线轨迹，而是通过Policy与环境的动态交互，自主生成多样化轨迹，解决SFT的数据稀缺问题。

环节2：Group Advantage Computation（组优势计算）------基于轨迹奖励评估策略

输入：Rollout环节生成的多组轨迹（τ₁~τₙ）；
奖励计算：采用二元结果奖励 （任务成功则轨迹对应奖励 r = 1 r=1 r=1，失败则 r = 0 r=0 r=0），简化传统RL复杂的过程奖励设计；
组优势计算：用GRPO算法，通过"同组内轨迹的奖励对比"计算归一化优势（无需单独训练价值网络），评估每条轨迹的策略优劣。

环节3：策略迭代更新

将"轨迹+对应的组优势"作为优化信号，更新Policy，让Policy更倾向于生成"奖励高（任务成功）"的轨迹。

之后，更新后的Policy会再次进入Rollout环节与环境交互，开启下一轮"生成轨迹→评估→优化"的循环，持续提升策略性能。

下面聚焦专为VLA模型设计的高效RL框架，基于veRL扩展并做VLA定制化适配。

3.1 交互式VLA Rollout：适配VLA的闭环环境交互

设计目的

解决"VLA需与物理环境动态交互，无法用LLM静态文本生成逻辑"的问题。

具体实现

采用令牌化动作解码策略 ：将机器人连续控制指令编码为"动作令牌"，让VLA模型通过自回归方式生成动作序列，对齐LLM文本令牌生成逻辑，降低适配成本；
闭环交互流程：模型接收多模态状态→生成长度为k的"动作块"→环境执行动作块→更新为新状态→反馈给模型生成下一个动作块，循环至任务结束，生成完整轨迹。

核心价值

让VLA模型能"主动与环境交互生成轨迹"，替代SFT依赖的"静态离线人类轨迹"，从根源上缓解数据稀缺问题。

核心伪代码解析

python 复制代码

def rollout(policy , dataset , number_sample =8, max_steps=None):
    rollout_dataset = []  # 存储最终生成的轨迹数据
    for batch in dataset:  # 遍历每个输入批次
        batch = batch.repeat(number_sample )  # 批量重复采样，提升轨迹多样性
        outputs = policy.generate(batch , temperature =1.0)  # LLM基础采样（铺垫VLA动作采样）
        rollout_dataset .append ((batch , outputs))  # 暂存初始数据
        
        # 并行环境初始化
        envs = env_process_pool .submit(batch.initialize)  # 并行提交环境初始化任务
        states = env_process_pool .submit(envs.setup)  # 并行完成状态初始化
        
        # 核心闭环交互循环
        for t in range(max_steps):
            actions = policy.generate(states , temperature =1.0)  # VLA生成动作令牌（随机采样）
            # 存储当前步的状态-动作对
            rollout_dataset .append ({f"{e.name}_step_{t}": (s,a) for e,s,a in zip(envs ,states ,actions)})
            # 环境执行动作，更新状态
            states , dones = env_process_pool .submit(envs.step , actions)
            # 过滤已完成任务，保留活跃任务
            active = [(e,s) for e,s,d in zip(envs ,states ,dones) if not d]
            if not active:  # 无活跃任务时提前终止
                break
            envs , states = zip(* active)  # 更新活跃环境与状态
    
    return rollout_dataset  # 返回完整轨迹数据集

伪代码关键细节

批量重复采样（batch.repeat(number_sample)） ：单批次重复 n u m b e r s a m p l e number_sample numbersample次，提升轨迹多样性，减少环境初始化次数，提升Rollout吞吐量；
并行环境处理（env_process_pool）：多进程/多线程池管理多个仿真环境，并行交互提升效率，解决VLA Rollout耗时问题；
闭环交互循环：实现"模型生成动作→环境执行→状态反馈→模型再生成"的核心逻辑，是主动探索生成轨迹的关键；
活跃任务过滤：移除已完成任务的环境，避免无效计算，适配长horizon任务。

3.2 结果奖励建模：简化VLA的奖励设计

设计目的

解决"VLA任务中过程奖励难以手工设计、可扩展性差"的问题。

具体实现

采用二元结果奖励 ------若轨迹对应的任务最终成功，整条轨迹的所有动作令牌奖励均为1；若任务失败，奖励均为0。奖励函数定义为：
R ( a i , t ∣ s i , t ) = { 1 , i s s u c c e s s f u l [ t r a j i ( a i , s i ) ] , 0 , o t h e r w i s e . R\left(a_{i, t} | s_{i, t}\right)= \begin{cases}1, & is_successful \left[traj_{i}\left(a_{i}, s_{i}\right)\right], \\ 0, & otherwise. \end{cases} R(ai,t∣si,t)={1,0,issuccessful[traji(ai,si)],otherwise.

落地关键

依赖环境内置的"任务成功判定器"：

仿真环境：通过物理引擎数据自动判定（物体坐标、姿态、重叠度等），准确率100%；
实世界环境：通过视觉识别+任务约束规则自动判定，噪声远低于过程奖励。

设计逻辑拆解

为什么选择"二元奖励"？
- 降低复杂度：避免连续奖励的梯度校准难题；
- 对齐GRPO算法：提供明确的轨迹优劣标签，无需额外归一化处理；
- 聚焦核心目标：引导模型全力探索任务成功策略，无中间模糊地带。
为什么选择"轨迹级全步统一奖励"？
- VLA模型是自回归动作生成模型，每一步都需要梯度更新信号；
- 若仅最后一步给奖励，前面步骤无法获得有效梯度，无法学习步骤间关联逻辑；
- 全步统一奖励让模型知道"整条轨迹的动作均为有效/无效"，优化整个动作序列。
为什么"忽略中间过程"是优势？
- 摆脱人类操作轨迹束缚，自主探索更高效策略；
- 促成"pushcut"现象发现，实现策略创新；
- 聚焦"任务成功"核心需求，而非"模仿人类过程"。

核心价值

简化框架部署：一套规则适配所有VLA操作任务，无需针对不同任务定制奖励；
降低成本：无需标注中间过程奖励，避免与"数据稀缺"痛点叠加；
支撑策略创新：为探索增强策略提供发挥空间，引导模型突破传统策略；
对齐GRPO算法：轨迹级二元奖励直接作为优势计算输入，提升训练稳定性。

3.3 探索增强（Exploration Enhancements）：突破VLA行为固化

核心目标是解决VLA模型在RL训练中"行为固化、探索不足"的痛点，在保证训练稳定的前提下，最大化策略的探索广度和有效性。

核心背景

机器人操作任务是"多解空间"，但传统RL和SFT存在局限：

SFT让模型复刻人类固定模式，缺乏自主探索动力；
传统RL探索机制不适配VLA的"连续动作+闭环交互"场景；
结果奖励的二元性加剧"梯度消失风险"（组内全成功/全失败时优势估计为零）。

策略一：动态采样（Dynamic Sampling）------ 解决"梯度消失"

核心痛点 ：无动态采样时，组内全成功/全失败会导致GRPO优势估计无意义（分母为0或分子为0），梯度为零，训练停滞。

设计逻辑：通过"筛选混合结果组"，确保每组轨迹中既有成功也有失败，让GRPO能计算有效优势，维持梯度流动。

具体实现
采样时主动排除"全成功"或"全失败"的组，直到批量中仅包含"混合结果组"（组内成功轨迹数 0 < k < G 0 < k < G 0<k<G），公式定义为：
0 < ∣ { t r a j i ( a i , s i ) ∣ i s s u c c e s s f u l [ t r a j i ( a i , s i ) ] } ∣ < G 0<\left|\left\{traj_{i}\left(a_{i}, s_{i}\right) | is_successful \left[traj_{i}\left(a_{i}, s_{i}\right)\right]\right\}\right|<G 0<∣{traji(ai,si)∣issuccessful[traji(ai,si)]}∣<G

无动态采样：训练中期梯度波动，LIBERO-Long任务成功率最高仅75%；
有动态采样：训练全程梯度稳定，成功率最终突破90%，收敛速度提升20%。

策略二：更高裁剪范围（Clipping Higher）------ 释放低概率有效动作

核心痛点

传统PPO/GRPO的裁剪范围（[0.8, 1.2]）会压制"低概率但有效"的动作令牌（多为非人类习惯策略），探索受限。

设计逻辑

在保证训练稳定的前提下，放宽裁剪上限，允许低概率有效动作的概率提升，为策略创新留足空间。

具体实现

将GRPO的裁剪范围从[0.8, 1.2]调整为[0.8, 1.28]：

下限0.8不变：限制无效动作的概率下降幅度，保证训练稳定；
上限提升至1.28：放宽有效低概率动作的概率提升空间，鼓励探索非传统策略。

实验效果

无更高裁剪：模型局限于SFT的"抓取-移动-放置"策略，LIBERO-Long成功率86.5%；
有更高裁剪：模型探索出"推""滑"等新动作，成功率提升至98.5%，"pushcut"现象出现概率增加30%。

策略三：更高rollout温度（Higher Rollout Temperature）------ 提升轨迹多样性

核心痛点

温度控制动作令牌采样随机性，温度=1.0时轨迹多样性不足，模型易重复SFT学到的动作，VLA动作令牌空间大（256个），低温度难以覆盖边缘令牌。

设计逻辑

通过提升采样温度，增加动作令牌随机性，让模型生成更多样化轨迹，覆盖更广泛的解空间。

具体实现

将rollout阶段的采样温度从1.0提升至1.6，温度越高，越倾向于选择低概率令牌，对应多样化的机器人控制指令。

实验效果

无更高温度：组内轨迹相似度达70%，unseen任务泛化率仅60%；
有更高温度：组内轨迹相似度降至35%，出现"推""旋转"等多样化策略，unseen任务泛化率提升至91.7%。

3.4 训练目标（Training Objective）：适配VLA的GRPO算法优化

核心逻辑是基于GRPO算法，融合探索增强策略，移除KL散度正则化，形成适配VLA场景的高效策略更新目标。

算法基础：GRPO与3.3节探索增强的深度融合

GRPO的核心适配性：无需训练价值网络，通过"组归一化优势"评估轨迹优劣，匹配"二元结果奖励"，避免价值估计噪声；

关键修改：移除KL散度正则化的深层逻辑

KL散度正则化的原本作用:
限制新策略与参考模型的差异，避免政策更新幅度过大导致训练震荡。

移除的三大核心原因

解除探索限制：KL正则化会强制新策略贴近参考模型（多为SFT后的策略），阻碍"pushcut"等新策略探索；
降低训练成本：无需维护参考模型，内存消耗减少30%以上，训练速度提升25%；
适配结果奖励的极简性：二元奖励已提供清晰的相对优劣信号，无需双重限制。

核心公式拆解

1. 重要性采样比： r i , t ( θ ) = π θ ( a i , t ∣ s i , t ) π θ o l d ( a i , t ∣ s i , t ) r_{i, t}(\theta)=\frac{\pi_{\theta}\left(a_{i, t} | s_{i, t}\right)}{\pi_{\theta_{old }}\left(a_{i, t} | s_{i, t}\right)} ri,t(θ)=πθold(ai,t∣si,t)πθ(ai,t∣si,t)

定义：衡量"新策略（ π θ \pi_θ πθ）"与"旧策略（ π θ o l d \pi_{θ_{old}} πθold）"在"第i条轨迹的第t步动作"上的概率差异；
核心作用：控制政策更新的"信任度"，差异过大时通过裁剪限制；
计算例子："移动物体"任务中，旧策略"推"动作概率10%，新策略25%，则 r i , t = 25 % / 10 % = 2.5 r_{i,t}=25\%/10\%=2.5 ri,t=25%/10%=2.5，超过1.28裁剪上限后被裁剪为1.28。

2. 组归一化优势： A ^ i = R i − m e a n ( { R i } i = 1 G ) s t d ( { R i } i = 1 G ) \hat{A}{i}=\frac{R{i}-mean\left(\left\{R_{i}\right\}{i=1}^{G}\right)}{std\left(\left\{R{i}\right\}_{i=1}^{G}\right)} A^i=std({Ri}i=1G)Ri−mean({Ri}i=1G)

定义：通过组内轨迹奖励的均值和标准差，对第i条轨迹的总奖励进行归一化，得到"相对优势"；
核心作用：替代传统RL的优势函数，评估轨迹相对优劣，无需价值网络；
计算例子（组内8条轨迹，奖励 R i = [ 1 , 1 , 0 , 1 , 0 , 0 , 1 , 0 ] R_i=[1,1,0,1,0,0,1,0] Ri=[1,1,0,1,0,0,1,0]）：
- 组均值 m e a n = ( 1 + 1 + 0 + 1 + 0 + 0 + 1 + 0 ) / 8 = 0.5 mean=(1+1+0+1+0+0+1+0)/8=0.5 mean=(1+1+0+1+0+0+1+0)/8=0.5；
- 组标准差 s t d = = ( 4 × ( 1 − 0.5 ) 2 + 4 × ( 0 − 0.5 ) 2 ) / 8 0.5 std=\sqrt[(4×(1-0.5)^2 + 4×(0-0.5)^2)/8]=0.5 std=(4×(1−0.5)2+4×(0−0.5)2)/8= 0.5；
- 成功轨迹优势 A ^ 1 = ( 1 − 0.5 ) / 0.5 = 1 \hat{A}_1=(1-0.5)/0.5=1 A^1=(1−0.5)/0.5=1，失败轨迹优势 A ^ 3 = ( 0 − 0.5 ) / 0.5 = − 1 \hat{A}_3=(0-0.5)/0.5=-1 A^3=(0−0.5)/0.5=−1。

3. 完整训练目标

L G R P O = E [ min ⁡ ( r i , t A ^ i , c l i p ( r i , t , 0.8 , 1.28 ) A ^ i ) ] L_{GRPO} = \mathbb{E}\left[ \min(r_{i,t}\hat{A}i, clip(r{i,t}, 0.8, 1.28)\hat{A}_i) \right] LGRPO=E[min(ri,tA^i,clip(ri,t,0.8,1.28)A^i)]

当 A ^ i \hat{A}_i A^i为正（轨迹成功）：鼓励新策略强化该动作（不超过裁剪上限）；
当 A ^ i \hat{A}_i A^i为负（轨迹失败）：抑制新策略选择该动作，引导向成功轨迹靠拢。

与框架其他模块的协同作用

与3.2节"结果奖励建模"：二元奖励让优势计算更简单、区分度更清晰；
与3.3节"探索增强"：动态采样确保优势有效，更高裁剪平衡探索与稳定，更高温度丰富优化信号；
与3.1节"交互式VLA Rollout"：Rollout生成的"状态-动作对"是重要性采样比的计算基础，并行化提供大规模组数据。

四、实验设置与核心结果

4.1 实验设置

基准数据集

LIBERO：包含5个任务套件（LIBERO-Goal、LIBERO-Spatial、LIBERO-Object、LIBERO-Long、LIBERO-90），聚焦语言引导的机器人操作任务；
RoboTwin1.0：17个双臂操作任务，场景和物体多样性有限；
RoboTwin2.0：50个任务，覆盖多种机器人形态，731个物体实例，含4个horizon层级（短/中/长/超长），12个分类任务用于评估。

骨干模型

采用OpenVLA-OFT，基于OpenVLA扩展，使用LLaMA2-7B作为骨干；
模型输入：单视图图像、语言指令、机器人本体感受状态（LIBERO中未使用本体感受状态）；
模型架构：并行解码和动作chunking设计，使用LLaMA2输出头生成动作令牌，采用交叉熵损失。

实验配置

硬件：8×NVIDIA A800 80GB；
超参数：学习率 l r = 5 × 10 − 6 lr=5×10^{-6} lr=5×10−6，训练批量64，采样 count 8，mini-batch size 128，裁剪比 ε l o w = 0.2 \varepsilon_{low}=0.2 εlow=0.2、 ε h i g h = 0.28 \varepsilon_{high}=0.28 εhigh=0.28，温度 T = 1.6 T=1.6 T=1.6；
动作配置：256个动作令牌，LIBERO中动作chunk数8，RoboTwin1.0&2.0中25；
评估方式：贪心采样，每个基准测试3次确保可复现性。

基线模型

包括UniVLA、 π 0 \pi_0 π0、RDT-1B、 π f a s t \pi_{fast} πfast、Nora、OpenVLA、Octo、DP、DP3等10+先进VLA模型。

4.2 核心实验结果

LIBERO基准结果（表2）

模型	Spatial	Object	Goal	Long	Avg
OpenVLA-OFT	91.6	95.3	90.6	86.5	91.0
OpenVLA-OFT+SimpleVLA-RL	99.4	99.1	99.2	98.5	99.1
Δ	+7.8	+3.8	+8.6	+12.0	+8.1

平均成功率从91.0%提升至99.1%，LIBERO-Long任务成功率达98.5%，超越 π 0 \pi_0 π0（85.2%）和UniVLA（95.2%）等SOTA模型。

RoboTwin1.0结果（表3）

模型	Hammer Beat	Block Handover	Blocks Stack	Shoe Place	Avg
OpenVLA-OFT	67.2	61.6	7.1	23.4	39.8
OpenVLA-OFT+SimpleVLA-RL	92.6	89.6	40.2	59.3	70.4
Δ	+25.4	+28.0	+33.1	+35.9	+30.6

平均成功率从39.8%提升至70.4%，4个任务均实现显著提升，Blocks Stack任务提升最为明显（+33.1%）。

RoboTwin2.0结果（表4）

任务层级	平均成功率（OpenVLA-OFT）	平均成功率（+SimpleVLA-RL）	Δ
短horizon（100-130步）	21.3%	64.9%	+43.6%
中horizon（150-230步）	47.1%	72.5%	+25.4%
长+超长horizon（280-650步）	46.5%	69.0%	+22.4%
整体平均	38.3%	68.8%	+30.5%

整体平均成功率从38.3%提升至68.8%，超越 π 0 \pi_0 π0（49.2%）和RDT（33.3%），所有horizon层级任务均有提升，短horizon任务提升最为显著。

实世界实验结果（表6）

模型	Stack Bowls	Place Empty Cup	Pick Bottle	Click Bell	Avg
RDT	60.0	4.0	10.0	20.0	23.5
OpenVLA-OFT	38.0	2.0	0.0	30.0	17.5
OpenVLA-OFT+SimpleVLA-RL	70.0	10.0	14.0	60.0	38.5
Δ	+32.0	+8.0	+14.0	+30.0	+21.0

仅用仿真数据训练，无需真实机器人数据，实世界平均成功率从17.5%提升至38.5%，Stack Bowls任务相对提升96%，Pick Bottle任务从0%提升至14%，验证了动作精度和实世界迁移能力。

五、核心分析：验证框架解决VLA核心挑战的能力

5.1 克服数据稀缺（Overcoming Data Scarcity）

实验设计

实验组（One-Trajectory SFT）：每个任务仅用1条人类演示轨迹做SFT（4个LIBERO任务套件共10条轨迹）；
对照组（Full-Trajectory SFT）：每个任务用全部50条演示轨迹做SFT（4个套件共500条轨迹）；
统一处理：两组均在SFT后用SimpleVLA-RL在500个仿真场景中训练。

关键结果（表5）

模型配置	Spatial	Object	Goal	Long	平均SR
单轨迹SFT（无RL）	63.6%	54.9%	59.6%	17.3%	48.9%
单轨迹SFT + SimpleVLA-RL	98.2%	98.7%	98.8%	91.7%	96.9%
全轨迹SFT（无RL）	91.6%	95.3%	90.6%	86.5%	91.0%
全轨迹SFT + SimpleVLA-RL	99.4%	99.1%	99.2%	98.5%	99.1%

深层意义

数据效率突破：单轨迹SFT+RL（96.9%）超越全轨迹SFT（91.0%），仅用2%的离线数据实现更优性能；
长horizon任务救赎：单轨迹SFT的LIBERO-Long成功率仅17.3%，RL后提升至91.7%（+74.4%），弥补少量数据无法覆盖长流程逻辑的缺陷；
落地成本降低：无需采集海量人类轨迹，仅需少量演示即可启动训练，扫清数据采集障碍。

5.2 泛化分析（Generalization Analysis）

实验设计

测试维度：空间泛化（物体摆放位置变更）、物体泛化（未见过的同类物体）、任务泛化（未见过的任务变体）；
训练-测试划分：每个任务套件选9个任务做"seen任务"（训练集），1个任务做"unseen任务"（测试集）；
基线对比：两组均以"单轨迹SFT"为基础模型，一组继续SFT微调，另一组用SimpleVLA-RL训练。

关键结果

SFT的泛化灾难：seen任务成功率提升至90%+时，unseen任务出现灾难性遗忘（成功率降至0%）；
RL的泛化优势：seen任务成功率达90%+的同时，unseen任务成功率持续提升：
- 任务泛化：3个unseen任务均提升5%-15%；
- 物体泛化：3个unseen任务全量提升，最高+36.5%；
- 空间泛化：3个unseen任务均提升，最高从43.3%→71.8%。

5.3 实世界实验（Real-World Experiments）

实验设计

任务选择：Stack Bowls、Place Empty Cup、Pick Bottle、Click Bell（覆盖抓取、堆叠、交互）；
训练数据：全程仅用仿真数据（1000条SFT轨迹+1000个RL仿真场景），无任何真实机器人数据；
硬件与环境：实世界使用2台AgileX Piper机械臂，测试环境为"干净桌面+未见过的背景"。

关键结果

sim-to-real无监督突破：仅用仿真数据，RL后平均成功率从17.5%提升至38.5%（+21.0%），超越RDT（23.5%）；
动作精度提升：Pick Bottle（高精度任务）的SFT版本成功率为0%，RL后达14.0%；
落地路径验证：提供"仿真大规模RL训练→实世界直接部署"的低成本路径，无需真实数据校准。

六、模型效果

下面是Pi0.6*与SimpleVLA-RL对比：

SimpleVLA-RL比较流畅的折叠纸箱：

SimpleVLA-RL完成了折叠纸箱的任务：

分享完成～

《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA

一、核心概述

二、框架设计分析：VLA与LLM的RL本质差异及算法基础

1. LLM的RL范式：静态、离散、无交互的文本生成逻辑

2. VLA的RL范式：动态、连续、强交互的机器人操作逻辑

3. 核心算法：Group Relative Policy Optimization（GRPO）

（1）GRPO的核心逻辑

（2）GRPO的核心公式

（3）GRPO适配VLA的核心优势

4. 小结

三、SimpleVLA-RL框架核心设计

环节1：Rollout（轨迹生成）------Policy与环境的闭环交互

环节2：Group Advantage Computation（组优势计算）------基于轨迹奖励评估策略

环节3：策略迭代更新

3.1 交互式VLA Rollout：适配VLA的闭环环境交互

设计目的

具体实现

核心价值

核心伪代码解析

伪代码关键细节

3.2 结果奖励建模：简化VLA的奖励设计

设计目的

具体实现

落地关键

设计逻辑拆解

核心价值

3.3 探索增强（Exploration Enhancements）：突破VLA行为固化

核心背景

策略一：动态采样（Dynamic Sampling）------ 解决"梯度消失"

策略二：更高裁剪范围（Clipping Higher）------ 释放低概率有效动作

核心痛点

设计逻辑

具体实现

实验效果

策略三：更高rollout温度（Higher Rollout Temperature）------ 提升轨迹多样性

核心痛点

设计逻辑

具体实现

实验效果

3.4 训练目标（Training Objective）：适配VLA的GRPO算法优化

算法基础：GRPO与3.3节探索增强的深度融合

关键修改：移除KL散度正则化的深层逻辑

移除的三大核心原因

核心公式拆解

1. 重要性采样比： r i , t ( θ ) = π θ ( a i , t ∣ s i , t ) π θ o l d ( a i , t ∣ s i , t ) r_{i, t}(\theta)=\frac{\pi_{\theta}\left(a_{i, t} | s_{i, t}\right)}{\pi_{\theta_{old }}\left(a_{i, t} | s_{i, t}\right)} ri,t(θ)=πθold(ai,t∣si,t)πθ(ai,t∣si,t)

2. 组归一化优势： A ^ i = R i − m e a n ( { R i } i = 1 G ) s t d ( { R i } i = 1 G ) \hat{A}{i}=\frac{R{i}-mean\left(\left\{R_{i}\right\}{i=1}^{G}\right)}{std\left(\left\{R{i}\right\}_{i=1}^{G}\right)} A^i=std({Ri}i=1G)Ri−mean({Ri}i=1G)

3. 完整训练目标

与框架其他模块的协同作用

四、实验设置与核心结果

4.1 实验设置

基准数据集

骨干模型

实验配置

基线模型

4.2 核心实验结果

LIBERO基准结果（表2）

RoboTwin1.0结果（表3）

RoboTwin2.0结果（表4）

实世界实验结果（表6）

五、核心分析：验证框架解决VLA核心挑战的能力

5.1 克服数据稀缺（Overcoming Data Scarcity）

实验设计

关键结果（表5）

深层意义

5.2 泛化分析（Generalization Analysis）

实验设计

关键结果

5.3 实世界实验（Real-World Experiments）

实验设计

关键结果

六、模型效果

《VLA 系列》SimpleVLA-RL | 端到端在线强化学习 | VLA