具身智能论文精度（八）：Pi0.6

只要敢于尝试，你能学到的东西超乎想象。

时间紧张ai翻译

图 1：RECAP 框架概览。RECAP 实现了基于奖励反馈与人工干预的视觉 - 语言 - 动作模型（VLA）训练。

系统以预训练 VLA 模型 为起点，该模型内置优势条件机制（Advantage Conditioning），让模型能从真实世界经验中高效学习；
对每个任务，部署模型并收集两类数据：模型自主交互轨迹（rollouts）、在线人工修正干预数据；
利用这些在线数据微调价值函数（Value Function），提升其对 "动作如何影响任务表现" 的估计能力；
再以更新后的优势估计值为条件，对 VLA 模型进行微调，最终改进策略行为。

左侧：多源输入数据

这三类数据为模型提供了从基础行为到高层语义的完整知识打底：

表格

数据类型内容与作用

多样化机器人数据多场景、多任务的机器人操作轨迹（如整理床铺、桌面操作），提供基础行为模式

子任务指令数据如 "等待意式咖啡出液""捡起枕头" 等高层语义指令，训练模型的子任务规划能力

多模态网络数据包含场景物体标注、视觉问答等通用图文数据，增强模型的开放词汇理解与语义泛化能力

中间：两大核心模型

（1）π₀.₆ VLA 模型（策略主干）

采用分层结构，同时接收观测、语言指令与优势估计条件：

高层（high-level）：负责语义理解与子任务规划；

底层（low-level）：执行精细动作生成；

action expert：轻量动作专家模块，专门生成连续动作序列；

language/advantage：语言指令与优势估计作为额外条件输入，引导策略向更优行为收敛。

（2）价值函数（Value Function）

基于预训练 VLM 骨干 + 价值头（value head）构建：

接收多模态观测与语言指令，输出动作的优势估计值；

为策略优化提供强化学习奖励信号，实现 "价值估计 - 策略更新" 的闭环。

右侧：RECAP 闭环训练流程

模型部署与数据收集：在真实任务中部署 VLA 模型，收集自主轨迹与人工修正干预数据；

价值函数微调（RL 训练）：用收集到的在线数据优化价值函数，提升对动作价值的估计精度；

VLA 策略更新：以更新后的优势估计为条件，微调 VLA 模型，让策略向更优行为收敛；

任务场景验证：在组装盒子、制作意式咖啡、叠衣物等复杂任务中，验证策略泛化能力。

数据类型	内容与作用
多样化机器人数据	多场景、多任务的机器人操作轨迹（如整理床铺、桌面操作），提供基础行为模式
子任务指令数据	如 "等待意式咖啡出液""捡起枕头" 等高层语义指令，训练模型的子任务规划能力
多模态网络数据	包含场景物体标注、视觉问答等通用图文数据，增强模型的开放词汇理解与语义泛化能力

摘要

本文研究如何通过强化学习（RL）让视觉 - 语言 - 动作（VLA）模型在真实部署中持续提升性能。我们提出了一种通用方法：基于优势条件策略的经验与修正强化学习（RECAP），通过优势条件化实现 VLA 模型的强化学习训练。该方法在自提升过程中融入了多源异构数据，包括示范轨迹、同策略在线交互数据，以及机器人自主执行过程中专家遥操作提供的修正干预数据。RECAP 流程首先通过离线强化学习预训练一个通用型 VLA 模型（记为 \(\pi^*{0.6}\)），再通过机器人端在线数据收集，对模型进行专项适配，使其在下游任务上达到高性能。实验结果表明，采用完整 RECAP 方法训练的 \(\pi^*{0.6}\) 模型，能够在真实家庭环境中完成衣物折叠、稳定组装盒子，以及使用专业咖啡机制作意式浓缩咖啡等复杂任务。在部分最难的任务上，RECAP 能将任务完成效率提升一倍以上，并将任务失败率降低约一半。

1.引言

熟能生巧： 人类在习得新技能时具备极强的适应性，但要达到精通，无一例外地都需要从反复尝试中学习。借助视觉 - 语言 - 动作（VLA）这类通用机器人基础模型，我们可以通过提示词灵活地为通用机器人指定任务。但和人类一样，这些模型也需要对一项技能进行 "练习" 才能真正掌握。这意味着，除了示范数据之外，我们还必须利用自主收集的经验数据，让策略能够修正部署中实际犯下的错误，在速度和鲁棒性上超越人类遥操作的水平，并适应全新的部署条件。强化学习（RL）[1] 早已将 "通过自主实践学习" 的原理形式化，但要在一个通用且可扩展的机器人学习系统中实现这些原则，仍面临重大挑战：

为大型模型设计可扩展且稳定的强化学习方法；
处理来自不同策略的异构数据；
在真实世界中建立带有奖励反馈的强化学习训练流程，而真实世界的奖励信号往往是模糊或随机的。

在本文中，我们提出了 RECAP 方法，它让视觉 - 语言 - 动作（VLA）模型能够在训练流程的所有阶段 （从预训练一直到自主执行数据的训练）融入奖励反馈。RECAP 的目标是通过一个通用的训练范式来解决上述问题，该范式将示范数据、自主交互经验、专家修正干预三者结合起来。流程从通用 VLA 的训练配方起步，基于多种不同机器人平台的多样化数据进行训练：

RECAP 首先通过 ** 离线强化学习（Offline RL）** 预训练 VLA 模型；
随后，用模型在部署过程中收集的数据继续训练。

在部署过程中，机器人会基于每一次任务的结果，接收（稀疏的）奖励反馈，同时可能会收到额外的专家干预来修正错误。整个训练流程遵循离线 RL 的范式：

训练一个价值函数（Value Function），用于评估任务成功推进的进度；
利用该价值函数，估计数据中每个动作的优势值（Advantage）；
基于这个优势值构建一个 "改进指标"，让策略以此为条件进行训练，从而得到更优的策略。

图 1 提供了 RECAP 的整体流程概览。

我们可以利用 RECAP 为复杂长流程任务训练机器人策略，例如折叠各类衣物、组装纸箱、制作意式浓缩咖啡等，部分任务场景如图 2 所示。

该方法首先在多任务、多机器人的多样化数据集 上，通过离线强化学习预训练模型。是在基础上为适配强化学习做的改进版本；而本身又是在之上升级而来：采用更大的骨干网络 、支持更多样的条件输入。

新增了以二值化优势值作为条件输入的能力，从而可以引入价值函数来进一步优化策略。

完成预训练后，先用示范数据 将微调适配到下游具体任务；随后进行一轮或多轮机器人在线数据采集，借助强化学习持续提升模型性能。

在部分高难度任务上，基于自主经验用 RECAP 训练，可将任务完成效率提升一倍以上 ，失败率降低一半甚至更多 。这使得达到了具备实际落地价值的鲁棒性水平：

连续运行 13 小时 制作意式咖啡；
在全新家庭环境中不间断折叠陌生衣物超过 2 小时；
完成工厂真实包装所用纸箱的组装任务。

尽管 RECAP 所采用的各项算法模块均已有前人研究铺垫，但将这些模块进行独特整合 属于创新贡献。本文实验首次证实：一套融合人工奖励反馈与人工干预 的通用强化学习框架，能够利用机器人实际部署过程中采集的交互经验，同时显著提升 VLA 模型的运行鲁棒性与任务执行效率。

2.相关工作

已知模仿学习训练的策略 存在误差累积 问题，且性能上限最多只能等同于示范数据的水平。本文研究目标是突破仅依赖离线示范的模仿学习范式 ，进一步提升视觉 - 语言 - 动作（VLA）策略的执行稳定性与任务速度。已有研究利用在线人工干预 优化机器人操控策略，本文采用其中一种范式：人控门限 DAgger 。与这些工作不同，本文方法同时结合专家干预数据与完全自主交互经验 ，构建了一套融合多数据源的强化学习框架。已有大量工作采用强化学习实现机器人操控策略的自主迭代优化，包括：基于扩散策略的方法、多任务设定下的强化学习、以及在预训练多任务策略上做强化学习微调的工作。但区别于这些研究，本文重点探索如何将真实世界强化学习拓展到大尺寸 VLA 模型 ，适配长时序、细粒度的操控任务。

近年来诸多工作研究如何通过强化学习升级基础 VLA 模型：一部分研究直接将近端策略优化（PPO）及其变体用于 VLA 微调，但这类方案难以高效、可扩展地落地到真实场景强化学习；** 另一类研究在预训练 VLA 之上做 RL 微调，典型思路包括：训练残差策略、微调动作输出头网络、对 VLA 输出动作做筛选 / 优化、在扩散 VLA 的噪声空间中优化策略。 ****也有部分工作尝试将学习到的行为蒸馏回 VLA 主干** ，实现端到端迭代提升。现有相关工作大多采用离散动作 或简单高斯连续动作分布。本文最核心的区别在于：基于表达能力更强的流匹配 VLA 模型 ，采用迭代式离线强化学习 对整个 VLA 做端到端训练 。这一实现依托简洁且易扩展的优势条件式策略提取方法 ，规避了在大尺寸 VLA 模型上使用策略梯度类目标函数的复杂难题。对比实验也证明：本文方案显著优于传统基于策略梯度的策略提取范式。

在方法层面与 RECAP 关联更紧密的是：已有多项前期工作将价值函数与端到端强化学习训练 应用于真实机器人上的 VLA 模型。例如 Huang 等人将校准 Q 学习 用于抓取任务的离线示范数据集，但没有在线迭代提升阶段 ；Zhang 等人利用直接偏好优化（DPO） ，基于 VLA 在线轨迹数据，从人类偏好中优化拾取 - 放置操作技能；此外，Zhai 与 Ghasemipour 等人分别采用 PPO、REINFORCE 算法，并搭配任务完成时长价值函数，训练 VLA 完成挪碗、铺开垫子、桌面推物等基础任务。

与上述工作相比，本文提出面向 VLA 的迭代式离线强化学习框架，具备多重优势：

支持大容量基于扩散、流匹配架构的 VLA，而前人工作多局限于离散动作模型；
采用优势条件化策略提取 ，无需依赖同策略 PPO 或 REINFORCE，能够充分利用所有离线 / 异策历史数据；
评测面向高难度、灵巧、长时序多阶段任务，可处理可形变物体、液体操作与复杂流程任务，任务吞吐效率提升约一倍。

已有研究也探索过以奖励、价值、优势值作为策略条件 的思路，包括结合无分类器引导（classifier-free guidance）的方法。本文在此基础上做了拓展：将该范式用于大规模通用 VLA 策略的预训练与微调 ，融合多类数据源（示范数据、人工干预数据、模型自主交互轨迹）学习真实机器人操控任务。近期研究还聚焦于多任务、语言条件奖励函数 与语言条件价值函数 的高效训练。本文借鉴这类思路，同样训练了语言条件分布式价值函数 ，以此实现对状态 - 动作优势值的有效估计。

3. 预备知识

1. 强化学习基础（Reinforcement learning）

我们考虑标准强化学习（RL）框架：

智能体由策略定义，根据观测选择动作；
轨迹定义为；
策略与随机环境动力学共同诱导出轨迹分布：
奖励函数记为，简写为，其中为终端奖励；
折扣累积回报（Return）定义为（本文不使用折扣因子）；
RL 目标是最大化期望累积回报：
策略的价值函数定义为：
动作优势值（n 步估计）定义为：

2. 正则化强化学习（Regularized reinforcement learning）

标准 RL 中，常在目标中加入正则项，在最大化奖励的同时保持策略与参考策略接近，典型目标形式为：

其中 D 为散度度量，为正则化系数。

当 D 为 KL 散度时，最优策略满足：

本文的优势条件式策略提取方法基于一个相关但较少被提及的结论：若定义策略

其中，g 为单调递增函数，用于衡量动作 a 相对于的提升程度，则保证性能优于，即。

利用这一性质，可通过求解以下最小化问题，从闭式解中得到参数化策略：

1. 价值函数（Value Function）模块

骨干网络：基于预训练 VLM（SigLIP (400M) + Gemma (270M)），模型规模小于 VLA 主策略

输入：机器人观测图像 + 语言指令（prompt） + 元数据（metadata）

输出：状态 - 动作优势值 \(A(o,a)\)，再经二值化处理得到优势指示符 \(I_t = \mathbb{1}(A(o,a)>\epsilon)\)

作用：独立于主策略，为动作提供优劣判断，不参与主策略梯度更新

2. π*₀.₆ VLA 主策略模块

骨干网络：预训练 VLM（SigLIP (400M) + Gemma (4B)），规模更大

输入组成 ：

机器人观测图像

语言指令（任务指令 / 子任务指令，如 "make a doppio"、"tamp the coffee"）

优势指示符 \(I_t\)（来自价值函数的二值化输出）

元数据（metadata）

训练范式：采用 KI 配方，预训练阶段在多源数据（机器人数据、网页数据）上做 next-token 预测；后训练阶段搭配带 stop-gradient 的流匹配动作专家

动作输出头（action expert） ：

离散动作（如 34, 142, -72 等分类输出）

连续动作（如 -1.7, 1.25 等，通过流匹配建模，加入噪声优化鲁棒性）

4. 基于优势条件策略的经验与修正强化学习（RECAP）

本文方法包含以下步骤，可重复执行多轮，持续优化基础 VLA 模型：

数据收集（Data collection）：部署 VLA 模型执行任务，为每个轨迹标注任务结果标签（用于确定奖励信号）；同时可选择性引入人工干预，为模型早期迭代中的错误提供修正示范。
价值函数训练（Value function training） ：利用所有已收集数据，训练一个大规模多任务价值函数，记为，该函数能够识别任务失败、并预估任务完成的预期时长。
优势条件式训练（Advantage conditioned training）：为利用价值函数优化 VLA 策略，我们在 VLA 模型的输入前缀中加入基于价值函数导出的优势值构建的 "最优性指示符"。这套 "优势条件式" 方案，提供了一种简单高效的方法，即使在包含次优数据的情况下，也能从价值函数中提取出更优的策略。

训练流程的整体结构如图 1 所示，价值函数与策略的详细架构见图 3。

预训练阶段：在由数万小时多任务、多机器人示范数据构成的完整预训练数据集上，执行上述步骤（2）和（3）。微调阶段：随后重复执行步骤（1）、（2）、（3）多轮，利用自主收集的数据进一步优化 VLA 模型。下文将详细描述价值函数训练与策略训练的具体流程，并在第 V 节中介绍该方法在训练模型时的具体实现。

A. 分布式价值函数训练

为了训练一个在预训练和后训练阶段，都能为任意任务提供可靠评价的价值函数，我们将表示为多任务分布式价值函数 ，它将观测和语言指令映射到由 B 个离散化价值区间构成的分布上。

在实现中，该价值函数与 VLA 策略使用相同的架构，但采用了更小的 VLM 骨干网络。定义轨迹从时间步 t 到结束的经验回报为。训练的流程如下：

将经验回报离散化为个区间（记离散化后的回报为）；
在当前数据集的所有轨迹上，最小化交叉熵损失：

这是数据集所代表的行为策略的价值函数的蒙特卡洛估计器。

从学习到的价值分布中，可以提取出连续价值函数（进而得到优势值）：

其中表示第 b 个区间对应的价值。

预训练阶段，数据集对应人工示范数据，价值函数学习任务在给定条件下的期望回报；
后续迭代中，数据集变为示范数据与当前策略经验数据的加权组合，价值函数会随之更新。

尽管这种同策略估计器的最优性不如经典的异策 Q 函数估计器，但它足够简单、高度可靠，且相比纯模仿学习仍能带来显著性能提升。未来工作可将该方法扩展，以支持异策估计器。

B. 基于优势条件化的策略提取

在得到价值函数 \(V^{\pi_{\text{ref}}}\) 后，我们需要利用它训练出更优策略，这一过程称为策略提取。在本文场景下，一套有效的策略提取方法必须同时满足以下三个核心要求：

高效利用多源异策数据：数据分布包含初始示范轨迹、专家修正干预数据，以及新旧版本策略的自主交互轨迹，这与离线强化学习面临的挑战高度相似。
可扩展适配大型 VLA 模型：包括基于流匹配、扩散模型的动作生成架构，无需依赖易处理的对数似然计算。
同时利用优质（近最优）与劣质（次优）数据：这对利用自主交互经验提升策略至关重要，不能简单过滤掉次优轨迹。

现有方法的局限

策略梯度类方法 （含正则化策略梯度、重参数化梯度）：应用最广泛，但难以适配流匹配 / 扩散模型。这类模型无法直接提供可处理的对数似然，因此很难扩展到现代 VLA 架构。
加权回归类方法 （如 AWR）：隐式对行为策略施加正则化，采用带重要性权重的监督学习目标，但会丢弃或大幅降低大部分数据的权重，本质上是一种 "过滤式模仿学习"，无法充分利用次优数据。

1. 方法基础：与 CFGRL 的关联

本文方法的具体推导与 CFGRL 方法联系最为紧密。基于第 III 节的公式，我们应用贝叶斯定理，将策略改进的概率改写为：

将语言条件纳入后，可得到改进后的正则化策略的闭式解：

当时，。

2. 核心思想：无分类器引导式策略学习

我们无需显式建模改进概率，只需让策略同时学习两种条件分布：

无改进条件的分布：
有改进条件的分布：

这与 ** 无分类器引导（Classifier-Free Guidance, CFG）** 的思路一脉相承：扩散模型同时学习带条件和不带条件的数据分布，以生成高质量样本。

本文中，改进指示符 I 服从以下 δ 分布：

其中是与任务相关的改进阈值，用于控制 "最优性指示符"，避免训练后再寻找衰减因子。

3. 训练目标函数

策略训练目标为最小化负对数似然：

其中是基于优势值的二值化指示符，是权衡超参数。

关键细节：

优势值来自前一节训练的价值函数；
训练数据包含所有收集到的数据：示范轨迹、模型自主交互轨迹，因此参考策略是人类行为与历史策略的混合分布；
对于人工修正的动作，强制设置（正例），假设专家修正动作始终为优质行为。

4. 针对 VLA 模型的实现

本文 VLA 模型同时输出离散和连续动作，连续动作分布通过 ** 流匹配（Flow Matching）** 建模。因此，实际训练目标是：

离散动作的对数似然 + 连续动作的流匹配目标的组合。

训练流程分为两步：

预训练 ：在完整预训练数据集上，训练模型表示；
迭代微调：对每个任务，执行多轮方法迭代，使用同策略交互数据（及可选的专家修正干预）持续优化。

C. 方法总结

算法 1 给出了完整方法的流程概览。如本节开头所述，该方法可通过以下三个子流程的组合完整定义：

数据收集：通过模型自主交互（可选择性加入专家修正干预）采集数据；
价值函数训练：按式 (1) 训练分布式价值函数；
策略训练：按式 (3) 训练优势条件化 VLA 策略。

方法不同阶段的唯一变量是输入到各子流程的数据：

预训练阶段使用全部历史示范数据；
针对每个下游技能 \(l(i)\) 的专项微调阶段，会额外加入自主交互采集的数据。

在实际实现中，专项技能模型（specialists）由预训练模型微调得到，而最终的通用模型（generalist）则从零开始训练。更多方法细节见附录 F。

Algorithm 1 RL with Experience and Corrections via Advantage-conditioned Policies (RECAP)输入：多任务示范数据集

利用公式 (1)，在上训练预训练价值函数

利用公式 (3) 和，在上训练预训练策略

初始化任务的数据集，加入该任务的示范数据

利用公式 (1)，从微调得到任务初始价值函数

利用公式 (3) 和，从微调得到任务初始策略

for to K do

用策略收集数据，并将数据加入

利用公式 (1)，从微调得到第 k 轮价值函数

利用公式 (3) 和，从微调得到第 k 轮策略

end for

5. 实现、模型与系统细节

我们将 RECAP 方法在一个名为的视觉 - 语言 - 动作（VLA）模型上进行了实例化。基于 VLA 模型构建，而又是 VLA 的升级版本，具体改进细节详见配套的模型说明文档。 额外新增了对二值化优势指示符的条件输入能力 ，使其能够适配 RECAP 框架的强化学习训练。模型架构如图 3 所示。我们按照第 IV-A 节所述方法，与 VLA 模型联合训练一个价值函数 ，该价值函数同样由一个视觉 - 语言模型（VLM）初始化得到。通过 RECAP 框架联合训练该价值函数与 VLA 模型，最终得到我们的完整模型。在本节中，我们首先详细阐述模型设计 及其如何扩展使用价值函数输出的优势值，随后描述奖励函数与价值函数 的设计，最后详细说明实现中的训练流程与数据收集过程。

A.π₀.₆ 模型

π₀.₆ 模型由 π₀.₅ 模型发展而来。π₀.₅ 模型能够通过流匹配灵活表示分块动作分布，并生成用于高层策略推理的中间文本。它采用 ** 知识隔离（KI）** 训练流程，在连续动作和离散化 token（包括通过 FAST 方法离散化的动作）上对整个模型进行端到端训练，同时使用 stop gradient 机制防止流匹配动作专家影响模型的其他部分。预训练同时使用机器人数据和来自网络的视觉 - 语言协同训练数据。

π₀.₆ 在 π₀.₅ 的基础上做了以下改进：

预训练数据集增加了来自多个机器人平台的额外数据；
基础 VLM 采用 Gemma 3 4B 模型；
动作专家的参数规模提升至 860M。

该模型可表示为，其中：

包含相机图像和机器人状态；
为语言输入，包括整体任务指令（如 "给我做一杯浓缩咖啡"）和提供元数据的附加语言输入 s，用于进一步调整任务执行方式。

模型输出动作块，包含 50Hz 频率下的关节角度和夹爪指令，由独立的 "动作专家" 模块生成。该模块是一个专为动作生成训练的专用权重集（860M 参数），采用流匹配训练，但能访问模型其他部分的激活。模型同时输出 token 化离散输出，包含预测的下一个子任务的文本表示（如 "拿起咖啡杯"），用于高层决策。由于动作在之后生成，动作生成实际上以预测的子任务为条件，提供了高层指导。在推理时，子任务预测的频率低于动作生成。

训练中，模型还会使用 FAST 分词器预测动作块的 token 化表示，这是 KI 流程的一部分，记为离散化动作。动作专家不接收这些作为输入，因此离散和连续动作是独立预测的。最终训练对数似然为：

由于先预测 \(\hat{\ell}\)，该对数似然可分解为：

B. 从 π₀.₆ 到 π*₀.₆：优势条件化改造

为了将优势信息融入策略，我们扩展了模型输入，新增一个 "改进指示符" 作为额外文本输入：当时输入 "Advantage: positive"，否则输入 "Advantage: negative"。VLA 模型的其余部分与第 V-A 节描述的结构一致。

在训练序列中，优势指示符出现在子任务预测之后、（离散和连续）动作之前，因此只会影响动作的对数似然部分。连续动作的对数似然无法精确计算，因此通过流匹配损失进行训练。流匹配与扩散模型在一定假设下存在紧密联系，而扩散模型的损失可视为对数似然的下界。因此，我们将离散动作的对数似然与连续动作的流匹配损失之和，作为整体动作对数似然的下界：

其中，带噪动作定义为，，为流匹配时间步索引，为扩散动作专家的连续输出，为损失权重项（可设置为噪声相关）。损失的完整细节见附录 C。

训练中，我们随机省略指示符，而非调整损失乘数。这一设计允许两种使用方式：

直接以采样策略（对应式 (2) 中的情况）；
同时使用条件与无条件模型实现无分类器引导（CFG），支持 \(\beta>1\) 的推理。详情见附录 E。

C.奖励定义与价值函数训练

由于我们的目标是开发一种通用、可广泛应用的、从经验中训练 VLA 模型的方法，因此采用了一种通用的稀疏奖励定义 ，该定义可应用于几乎所有任务。对于每个轨迹（episode），我们获得一个表示其是否成功的标签。奖励函数由这个轨迹级别的成功标签推导而来，使得价值函数对应于 **（负的）任务成功所需步数 **。该奖励函数定义如下（其中T为轨迹最后一步，为一个较大的常数，用于确保失败轨迹的价值较低）：

基于该奖励函数，我们训练价值函数，使其对于成功轨迹预测（负的）剩余步数，对于失败轨迹则预测一个较大的负值。实际实现中，我们将预测的价值归一化到区间\((-1, 0)\)。由于我们训练的任务类型多样，典型轨迹长度差异很大，因此会基于每个任务的最大轨迹长度，对其价值进行归一化 。价值函数的输入与 VLA 模型的语言输入相同，架构设计也一致，但采用了更小的670M 参数 VLM 骨干网络，同样由 Gemma 3 初始化（见图 3）。为防止过拟合，我们还在一小部分多模态网络数据上对价值函数进行协同训练。图 4 展示了价值函数在部分成功 / 失败轨迹上的可视化结果，更多可视化结果见附录 B 的图 13。

D. 预训练、数据收集与经验学习

模型预训练阶段的数据混合方案基本沿用了 π₀.₅的配方，包括来自网络的视觉 - 语言数据、子任务预测，以及在多种不同机器人上执行各类任务的底层动作预测。需要说明的是，预训练完成后，能够执行的任务数量远超第 VI 节评估中使用的任务。

预训练期间，我们首先在同一数据集上训练价值函数，预测每个任务成功完成所需步数的负值。随后，我们估计每个任务的改进阈值，用于确定基于优势的改进指示符。我们将设置为价值函数为任务\(\ell\)预测值的第 30 百分位数。

在 VLA 训练过程中，价值函数会实时运行，为每个样本估计，并根据计算。如第 V-A 节所述，会作为输入提供给。由于价值函数采用相对较小的 VLM 骨干网络（670M），在 VLA 训练期间实时推理价值函数只会带来极小的额外成本。

预训练完成后，我们开始针对目标任务进行策略改进循环：

首先，使用目标任务的示范数据对进行微调。此阶段将指示符固定为 True，我们发现这能带来略好的结果，该阶段对应监督微调（SFT），得到初始策略。
随后，使用该初始策略收集额外数据并加入。部分轨迹完全自主收集，部分则由专家遥操作者监控，可随时介入提供修正。这些修正可向策略展示如何避免灾难性失败或从错误中恢复。但需注意，仅靠修正本身不太可能解决所有问题：自主执行过程中的干预是一种破坏性事件，即使是专家也无法保证干预质量的一致性，也无法改善行为的细微方面（如整体速度）。因此，修正主要用于修复重大错误和克服探索难题，其本身并不能提供最优监督，这与理论预期不同。根据第 IV-B 节的说明，我们强制所有修正动作的\，但整个轨迹（包括自主部分和修正部分）无论是否有修正，都可选择性地加入数据集。
数据收集完成后，我们使用任务迄今收集的所有数据对价值函数进行微调，然后用更新后的指示符\(I_t\)微调策略，流程与预训练阶段相同。价值函数和策略均从预训练检查点微调，而非上一轮迭代的模型。我们发现这有助于避免多轮迭代中的模型漂移，尽管持续从上一轮模型微调也可能获得良好结果。

该过程可根据需要重复多次，但实践中我们发现，即使仅进行一轮迭代，也通常能带来显著的性能提升。

6. 实验评估

在实验评估中，我们采用 RECAP 方法在一系列真实机器人任务上训练 \(\pi_{0.6}\) 模型，任务包括：制作意式浓缩咖啡、折叠各类衣物、纸箱组装 。每项任务均为多步骤长流程任务 ，单次耗时 5～15 分钟不等；涉及复杂操控行为，如受限用力操作、液体倾倒、布料与硬纸板灵巧操作等，同时要求较快执行速度以实现高任务吞吐率。实验所用机器人平台见图 5。下文将详细介绍任务设定与基线方法，并给出定量实验结果。

A. 评估任务

本文定量对比实验包含三大任务类别，每类下设有多种任务变体：衣物折叠、咖啡制作、纸箱组装。任务概况如下，任务场景示例如图 6 所示：

普通衣物折叠（T 恤、短裤）

沿用 \(\pi_0\) 论文中的标准衣物折叠任务。任务流程：从收纳筐中取出初始摆放姿态不确定的 T 恤或短裤，将衣物摊平后完成折叠。任务成功标准：200 秒内将单件衣物折叠整齐并堆叠放置在桌面右上角。

多样衣物折叠（多品类服饰）

该任务需要折叠11 种不同品类衣物，包含：毛巾、正装衬衫、毛衣、牛仔裤、T 恤、运动短裤、Polo 衫、半身裙、长袖上衣、袜子、内衣。

为保证实验指标方差更低、结果更稳定，选取难度最高的正装衬衫作为评测基准项 ；策略在全部 11 类衣物上统一训练，附带演示视频中展示了多类服饰的折叠效果。任务成功标准：500 秒内将目标衣物规范折叠，并整齐堆叠在桌面指定位置。

定向容错优化衣物折叠任务

最后一类衣物折叠任务采用高度结构化固定场景 ，用于消融实验。任务为：从固定摊平初始状态 折叠一件橙色 T 恤。本任务重点考核任务成功率，采用严格成功标准：200 秒内 将 T 恤规范折叠，且衣领必须朝上 。该任务用于验证 RECAP 能否通过强化学习剔除特定错误行为（本场景主要问题为：折叠后衣领朝下）。

咖啡制作（双份浓缩咖啡）

在使用商用咖啡机制作咖啡这一高难度长时序任务上评估策略性能。本研究的咖啡制作策略可制作多种饮品（拿铁、冰美式、浓缩咖啡等），还能使用毛巾清洁咖啡机；定量实验仅聚焦双份浓缩咖啡任务。

任务完整流程：拿起手柄 → 将手柄置于磨豆机接粉 → 接粉压粉 → 将手柄锁紧安装至咖啡机 → 取杯就位 → 萃取完整浓缩咖啡 → 完成出品。

成功标准：200 秒内完成全部流程，且无严重失误（如掉落手柄、咖啡洒漏等）。

纸箱组装

在真实工厂落地场景 下，评估策略完成包装纸箱组装的能力。任务流程：从平整纸板开始折叠成型、粘贴标签、再将组装好的纸箱摆放至周转箱指定位置。定量实验考核全流程完成度，整体成功标准：600 秒内从平整纸板完成纸箱组装并堆叠摆放。

B. 对比实验与消融实验设置

本文将 RECAP 与多个基线模型进行对比：

预训练 π₀.5该基线不使用强化学习，也未采用 RECAP 框架。
预训练 π₀.6不含优势指示符 \(I_t\)，仅通过监督学习完成预训练。
**RL 预训练 π\(^*_{0.6}\)**在预训练阶段就联合价值函数进行强化学习预训练，并按照第 V-D 节所述引入优势指示符 \(I_t\)。
π\(^*_{0.6}\) 离线强化学习 + 监督微调（SFT） 以 π\(^*_{0.6}\) 预训练权重为初始模型，利用目标任务示范数据做微调。该微调方式记作 "SFT"，训练时把所有示范数据的优势指示符固定为True 。实验发现：离线 RL 预训练 + 高质量 SFT 的组合，优于普通无离线 RL 预训练的标准 SFT；同时也为后续利用机器人真实数据做强化学习提供了良好初始化起点。
本文方法 π\(^*_{0.6}\)（RECAP） 在目标任务上通过 RECAP 完整流程训练得到的最终模型，同时利用模型自主轨迹采样 与专家人工修正数据。默认评测时引导系数 \(\beta=1\)；部分实验也采用无分类器引导（CFG）推理，对应 \(\beta>1\)。

此外，本文还选取两种已有经典策略提取方法，与所提优势条件化方法做对照；两种对照方法均使用与 RECAP 完全相同的机器人实测数据，仅策略学习方式不同：

AWR（优势加权回归） 以同样的预训练 π₀.6 为起点（不加入优势条件化），基于本文价值函数算出的优势值，采用优势加权回归方法做微调。
PPO实现了 DPPO/FPO 的变体：基于单步扩散目标计算对数似然，并参照 SPO 工作采用另一种 PPO 约束形式，具体细节见附录 D。

C. 定量实验结果

本文评估采用两项指标：任务吞吐率（throughput）与成功率（success rate） 。吞吐率 衡量每小时内成功完成的任务次数，可将执行速度与任务成功率融合为一个具备实际应用意义的量化指标；成功率表示完整轨迹中任务成功的占比，由人工标注得到。标注人员需从多项质量维度对每条轨迹进行综合评判，再将各项质量指标汇总为最终的成功 / 失败标签。

1）RECAP 对策略性能的提升幅度

为量化该问题，本文主要定量结果如图 7、图 8 所示。在所有任务上，最终版 \(\pi^*{0.6}\) 相比基准监督训练版 \(\pi{0.6}\)、RL 预训练版 \(\pi^*{0.6}\) 以及离线 RL+SFT版 \(\pi^*{0.6}\) 均取得显著性能提升。

引入机器人在线交互数据后（从离线 RL+SFT 升级至最终 \(\pi^*_{0.6}\)），多品类衣物折叠 与意式咖啡制作 任务的吞吐率提升一倍以上，任务失败率约降低一半。

在难度较低的基础衣物折叠任务（T 恤、短裤）上，经过 SFT 阶段后成功率已接近上限，但最终模型仍能显著提升吞吐效率。

除多品类衣物折叠任务外，其余所有任务上最终 \(\pi^*_{0.6}\) 的成功率均达到 90% 以上，具备实际落地部署的可行性，例如办公室咖啡制作、工厂纸箱组装等场景，相关效果见配套演示视频。

针对纸箱组装任务，图 8（右图）进一步将整体任务成功率拆解为四个子阶段：纸板拾取、纸箱成型、标签粘贴、放入周转箱空位 。相较于其他对比模型，\(\pi^*_{0.6}\) 在所有子阶段的成功率均更高；各子阶段的大部分失败均源于任务执行超时。配套延时视频展示了各项任务连续数小时的长时间运行效果。

2）RECAP 多轮迭代对 π₀∗.₆ 的性能提升效果

接下来本文分析：经过多轮数据收集与训练迭代 ，RECAP 如何持续优化策略。实验选取T 恤 & 短裤折叠 与纸箱组装两项任务。

对于 T 恤折叠任务，仅使用纯自主评估采集的数据（无人工修正）完成两轮策略迭代优化，用以单独评估仅依靠强化学习时方法的自提升能力。每一轮在四台机器人上采集 300 条轨迹。

纸箱组装任务同时采用自主试跑数据 与专家遥操作干预数据：每轮包含 600 次自主试跑、360 次带人工干预的试跑。

图 9 绘制了吞吐率随迭代轮次的变化，对比 RECAP 两轮迭代（记为 \(i=1\)、\(i=2\)）；标注为 "本文方法 (Ours)" 的最终迭代结果，对应上一节中该任务的最优整体性能。同时对比初始采集策略：离线 RL 预训练 π₀∗.₆ + SFT 微调模型。

两项任务中，π₀∗.₆ 均随两轮迭代持续性能上涨：

衣物折叠任务性能稳步提升，吞吐率整体提升 50%；
长时序纸箱组装任务需要更多数据才能体现明显增益，但经过第二轮迭代后，吞吐率提升一倍。

图 10 给出了成功率随迭代的变化曲线：

衣物折叠任务在第一轮迭代后成功率已突破 90%，第二轮迭代主要进一步提升执行吞吐速度；
纸箱组装任务在两轮迭代中成功率均有明显上涨。尽管仍存在少量失败（尤其末尾纸箱堆叠放置环节），但最终策略在 600 秒时限内，纸箱折叠与标签粘贴环节的成功率均接近 90%。

3）RECAP 优势条件化策略提取与其他方法对比

将本文第 IV-B 节提出的优势条件化策略提取 ，与现有 AWR、PPO 两类经典方法进行对比，实验选用 T 恤 & 短裤折叠任务。

为保证公平对照，所有对比方法使用与本文最终模型完全相同的数据集；这实际上对基线方法更为有利 ------ 它们可以直接使用 RECAP 迭代过程中采集到的高质量数据。

实验结果如图 11 所示：AWR 与 PPO 虽能取得尚可效果，但性能均远低于本文方法，且很难超越「离线 RL + SFT」版本的 π₀∗.₆ 基线。

对于 PPO，在该异策训练场景下必须设置较小的信任域约束 \(\eta=0.01\) 才能稳定训练；虽训练过程平稳，但最终性能表现不佳。AWR 虽能达到不错的任务成功率，但策略执行速度明显更慢，最终吞吐率远低于本文方法。

4）RECAP 能否利用少量数据显著改变策略行为、消除固定失败模式？

前文实验主要对策略整体性能进行端到端综合评估，本节进一步聚焦某一类特定失败行为，验证基于 RECAP 的强化学习训练能否让策略彻底改掉固定错误。

为此我们采用一套严格判定标准 的衣物折叠任务：要求机器人折叠 T 恤时，衣领必须居中且正面朝上 。每条任务轨迹均设置固定的对抗初始状态：T 恤以特定姿态平铺在桌面，在此初始条件下，基线「离线 RL + SFT」策略经常折叠失败。

如图 12 所示，在该场景下运行 RECAP 两轮迭代（每轮采集 600 条轨迹），最终策略任务成功率达到 97% ，且执行速度更快。由此可得结论：即便完全依靠强化学习、不借助任何人工干预数据与额外示范数据，RECAP 也能有效消除策略的特定失败模式。

7. 讨论与未来工作

让机器人策略在真实任务中达到与人相当的鲁棒性、执行速度与动作流畅度 ，仍是机器人学习领域的一大核心挑战。本文提出：结合DAgger 式人工指导 与强化学习，从真实交互经验中持续学习，有望破解这一难题。

本文提出 RECAP 框架，利用自主试跑、奖励反馈与人工干预联合训练 VLA 模型；并在多项真实任务上验证了经 RECAP 训练的 \(\pi^*_{0.6}\) 模型，包括：意式咖啡制作、多类衣物折叠、纸箱组装。

RECAP 的核心是一套适配大规模 VLA 策略可扩展训练 的强化学习方法：依托价值函数，采用优势条件化 完成策略提取。该强化学习所用数据融合机器人自主轨迹 与人工干预修正：通过干预纠正重大错误，再利用自主交互数据精细打磨行为细节。

实验表明：RECAP 可同时提升 VLA 模型的任务成功率与吞吐率 ；在部分高难度任务上吞吐率提升一倍以上，失败数量约降低一半。

RECAP 仍存在多处可改进方向：

全自主化不足：系统仍依赖人工标注、奖励反馈、人为干预和场景重置。已有前人工作探索过自动化方案，而 VLA 模型也为自动化数据采集提供了新路径，例如利用高层策略自主推理并重置作业场景。
探索策略较朴素：当前探索方式偏贪心，主要依靠策略自身随机性和人工干预尝试新方案。当初始模仿策略已有合理行为时该方式尚可接受，但引入更先进的探索算法仍有很大提升空间。
迭代式离线更新而非全在线强化学习 ：RECAP 采用批量采数据 --- 重新训练 --- 循环迭代 的离线更新模式，而非边采集边实时更新策略与价值函数的全在线 RL。当前出于工程便捷性采用离线迭代，未来可拓展为完全并行的在线强化学习框架，是极具潜力的研究方向。

从更宏观的角度看，利用强化学习训练 VLA，是让模型性能真正达到现实落地可用水平最直接的路径之一。但 VLA 强化学习仍面临诸多挑战：大容量大模型的大规模 RL 训练难度、样本复杂度、自主作业能力、延迟奖励等问题。现有面向小规模系统或大模型虚拟域的 RL 框架虽可作为起点，但要让强化学习真正成为 VLA 训练的实用工具，仍需更多深入研究。本文希望能为该方向迈出扎实的一步。