RLT:VLA 学会"在岗练习"
Physical Intelligence 最新工作 RL Token (RLT) 解读。VLA 模型什么都会但什么都不精?用几分钟真机强化学习做 last-millimeter 精化,速度甚至超越人类遥操作。本文结合论文原文与个人思考,聊聊 RLT 做对了什么、还差什么。
1. VLA 的"最后一毫米"困境
大规模 VLA(Vision-Language-Action)模型是当前机器人操控的主流范式。它们在海量遥操作数据上训练,能处理各种各样的任务------但精度和速度往往不尽人意。
具体来说,VLA 在执行高精度任务时有一个典型症状:反复试探。比如插网线时,它会靠近插口、后退一点、微调、再尝试,来回好几次才成功。这不是 VLA "不会",而是示教数据本身就存在噪声和不一致------人类遥操作的精度上限,就是 VLA 的天花板。
强化学习(RL)是突破这个天花板的天然选择:让机器人自己练习,发现比人类示教更快、更准的策略。但问题是,VLA 模型动辄数十亿参数,直接拿来做在线 RL,计算量和数据量都不现实。
RLT 的核心问题就是:如何在几分钟到几小时的真机交互中,高效地用 RL 精化一个大型 VLA?
2. RLT 的核心方法
RLT 的思路非常简洁:冻住 VLA,只在上面接一个极轻量的 RL 模块。
2.1 RL Token:把 VLA 的知识"蒸馏"成一个向量
VLA 内部有丰富的特征表示,但维度太高(数千个 token,每个 2048 维),不适合直接拿来做 RL。RLT 在冻结的 VLA 上加了一个小型 encoder-decoder transformer,训练出一个 RL token------一个 1×2048 的紧凑向量。
训练方式是自回归重建:decoder 需要从这个单一向量恢复出 VLA 的完整 token 序列。这迫使 RL token 保留尽可能多的任务相关信息,同时足够紧凑,可以作为下游 RL 的状态输入。
2.2 轻量 Actor-Critic 做在线精化
冻结 VLA 和 RL token 后,RLT 训练一个很小的 actor-critic 网络(2-3 层 MLP,隐藏维度 256-512)。
关键在于:actor 不是从零生成动作。它接收两个输入:
- RL token + 本体感知状态:告诉它当前的场景
- VLA 的参考动作块(action chunk):告诉它 VLA "打算怎么做"
actor 的任务是在 VLA 参考动作的基础上做局部精化,而不是重新发明轮子。
3. 五个关键设计选择
- Action Chunking(动作块): RL 策略一次输出 C=10 步的动作块而非单步动作,这使得强化学习能够看得更长远。
- BC 正则化: actor 的训练目标不是纯粹地最大化 Q 值,还有一个约束项:输出动作不要偏离 VLA 参考动作太远。
- 参考动作直通(Pass-Through): VLA 采样的参考动作 ã 直接作为 actor 网络的输入。这让 actor 能"看到" VLA 打算做什么,然后决定在哪里微调。去掉这个输入(w/o Pass-Through),学习速度明显变慢,训练过程中失败更多。
- 参考动作dropout: 训练时随机 50% 的概率将参考动作置零。这防止 actor 偷懒------如果它总能看到参考动作,最简单的策略就是直接复制,那 RL 就白训了。Dropout 强迫 actor 维持一条独立的动作生成通路。奇怪的是文章中没有提到对dropout做消融实验。
4. 为什么还需要 Action Expert?
读到这里你可能会想:既然已经有了 actor-critic,VLA 的 action expert(生成参考动作的 diffusion 模块)还有什么用?直接用 RL token 当状态、actor 输出动作不就行了?
这恰恰是 RLT 设计中最精妙的地方。去掉 action expert,RLT 就退化成了"换了个好 encoder 的 HIL-SERL",丢失了它最核心的优势。Action expert 扮演了三个不可替代的角色:
4.1 多模态信息的载体
VLA 的 action expert 是一个 diffusion 模型,能捕捉动作分布中的多个模式。比如面对一个插入任务,可能存在"从左侧进入"和"从右侧进入"两种合理策略。Diffusion 模型采样时自然会选择一个模式。
而 RLT 的 actor 是一个单峰高斯分布------它自身没有能力表示多模态。但如果它接收了 action expert 采样出的参考动作,就隐式地获得了"VLA 选了哪个模式"的信息,然后在这个模式的基础上做精化。参考动作不只是一个初始猜测,它还是一个模式选择信号。
4.2 将优化问题降维
想象两种任务:
- A: 在 140 维动作空间中从零找到能插进网线的动作序列
- B: 给你一个"差不多能插进去"的动作序列,微调一下让它更快更准
显然 B 比 A 简单得多。Action expert 的存在,将 RL 的问题从 A 降级为 B------从"学会做任务"变成"做得更好"。BC 正则化和 pass-through 都依赖于此:没有参考动作,这些机制就无从谈起。
4.3 降低RL工作量
训练分为两个阶段:
- Warmup 阶段:直接执行 action expert 的动作,收集初始数据给 critic 学习。没有它,critic 面对的是纯随机数据,学习信号极差
- 正式训练中:任务的非关键阶段(如抓取、搬运)仍由 VLA(含 action expert)执行,RL 只在关键阶段(如插入)接管
这种分工让 RL 可以集中火力在最难的部分,而不需要从头学整个任务流程。
4.4 消融实验的佐证
论文的消融实验直接验证了这一点:
- w/o Pass-Through(去掉参考动作输入):学习变慢,训练过程中更多失败
- w/o BC Regularizer (去掉对参考动作的正则化):所有消融中性能下降最大
两个最重要的消融都指向同一件事:action expert 提供的参考动作,是 RLT 高效学习的根基。
5. 实验:几分钟数据,3 倍提速
RLT 在四个高精度真机任务上做了验证:
| 任务 | 精度要求 | 难点 |
|---|---|---|
| 螺丝安装 | 亚毫米对准 | 螺丝刀尖到抓点 10cm 放大效应 |
| 扎带紧固 | 毫米精度 | 双臂协调,柔性物体 |
| 网线插入 | 精确位姿对齐 | 接触动力学敏感 |
| 充电器插入 | 厘米级对齐 | 插头和插座可见性差 |
核心结果:
- 关键阶段速度提升最高 3 倍
- 螺丝安装成功率从 20% 提升到 65%
- 网线插入任务中,RL 策略的速度超越了人类遥操作------一半的 RL episode 比所有人类示教都快
- 仅需约 5 分钟关键阶段数据即可超越基线
更有趣的是行为上的质变:VLA 在接触点附近反复"试探",而 RLT 训出的策略会直接靠近并流畅插入,失败时还会施加压力并轻微摆动------这种利用柔顺性的策略从未出现在示教数据中,完全是 RL 自主探索出来的。
6. RLT 还差什么?
6.1 仍然是逐任务训练
RLT 需要为每个任务独立训练:
- RL token 的 encoder-decoder(在任务示教数据上训练)
- Actor-Critic 网络(在线训练)
- VLA 本身也做了任务级 fine-tuning
虽然训练成本远低于 HIL-SERL(小 MLP vs 完整策略),但并没有解决"一次训练、多任务通用"的问题。
6.2 人工依赖
当前系统仍需要人工介入:
- 提供稀疏奖励(每个 episode 标注成功/失败)
- 在训练中提供干预纠正
- 手动决定何时从 VLA 切换到 RL 策略
论文提到可以用奖励模型和进度预测来自动化这些环节,但目前还没有实现。
6.3 只精化关键阶段
RLT 明确只用于任务的"关键阶段"(通常 5-20 秒),其余部分由 VLA 执行。这是务实的工程选择,但也意味着它不是一个端到端的解决方案。虽然反复强调了文章相对于HIL-SERL的进步,但是VLA在真机强化过程中不可替代的作用依然值得怀疑。
参考
- Charles Xu et al. "RL Token: Bootstrapping Online RL with Vision-Language-Action Models." Physical Intelligence, 2025.
- Jianlan Luo et al. "Precise and dexterous robotic manipulation via human-in-the-loop reinforcement learning." arXiv:2410.21845, 2024.
- Physical Intelligence. "π0.6 model card." 2025.
