LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调

第一部分 Learning while Deploying: Fleet-ScaleReinforcement Learning for Generalist RobotPolicies

1.1 引言与相关工作

1.1.1 引言

如原论文所述，要在真实世界中部署通用机器人，就需要高性能的通用策略：这类策略必须能够在多样的物体、环境、用户指令和运行条件下，可靠地完成广泛的任务

近期的VLA策略 [1-RT1, 2-Rt-2, 3-Octo, 4-Openvla, 5-π0, 6-π0.5] 通过利用大规模离线机器人数据集学习广泛的能力，为这一目标提供了有力基础
然而，仅依靠离线预训练并不足以让策略具备可部署性
真实世界部署并不是一个固定的测试分布：随着机器人在越来越多的家庭、商店、工作场所和用户之间被广泛使用，它们会遇到预训练数据覆盖范围之外的新任务、新物体实例、新配置、新偏好以及罕见的失败模式

因此，要获得高性能，就需要使策略能够持续从部署过程中的经验中不断改进，使得适应能力可以随着使用过程中产生的数据而扩展

而要实现这种形式的持续改进，需要具备既广泛又持续更新的部署经验
对于通用型机器人策略而言，最有价值的部署经验自然而然是在有舰队规模下收集到的
任何单个机器人仅能采样到已部署分布中的一小部分，而一个机器人舰队则横跨多样化的任务、环境、物体和用户指令，从而产生异质性的经验，这些经验包括成功、失败、恢复、部分进展、罕见边缘情形以及偶发的人类干预

通过共享策略聚合这些物理经验，可以形成一个闭环的数据飞轮：已部署的机器人在目标部署分布上生成经验，而共享的策略从聚合数据中不断改进，而改进后的策略会被重新部署，以收集更广泛且信息量更高的经验

作者将这一设定称为部署中学习(Learning WhileDeploying, LWD)：即由已部署机器人集群在真实世界中持续自主交互所累积的经验驱动的持续策略改进

然而，要将这一数据飞轮转化为一种学习算法，需要一个能够从自主交互结果中改进的训练目标，而不是把部署数据仅仅当作模仿学习的信号

交互式模仿学习方法 [7-Hg-dagger: Interactive imitation learning with human experts] 可以在部署期间引入专家示范、纠正和干预，但它们主要将部署过程视为监督学习中动作标签的来源
因此，它们只利用了可用经验的一部分，而且缺乏一种有原则的机制来利用包含成功、失败、恢复、部分进展以及任务奖励等信息的自主试验
强化学习在原理上提供了这样一种机制，它通过任务结果和策略交互经验来优化策略行为
8-Q-learning
9-Addressing function approximation error in actor-critic methods
10-Continuous control with deep reinforcement learning
11-Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor

然而，现有的机器人强化学习方法通常局限于小规模、短时程或任务特定的设定，并且经常是在一个预训练的通用策略基础上专门化到某个狭窄任务
12-Rl-100: Performant robotic manipulation with real-world reinforcement learning
13-Gr-rl: Going dexterous and precise for long-horizon robotic manipulation
14-Conrft: A reinforced fine-tuning method for vla models via consistency policy

即，一种既能在部署后基于集群部署经验对端到端 VLA 策略进行后训练、又能保持其通用性、同时具备可扩展性的方法，仍然是一个尚未解决的开放问题

要弥补这一空白，需要一种用于 LWD 的强化学习（RL）算法：它既要与预训练的 VLA 策略兼容，又能够利用大规模离线和 off-policy 数据集进行学习，并且还能在新的部署数据不断流入时快速适应

这些需求同时对强化学习方法的两大组成部分提出了压力

价值学习必须能够在异质的off-policy 数据、稀疏奖励以及罕见的高回报轨迹条件下，产生可靠的估计
策略提取则必须能在不破坏模型稳定性的前提下，将学到的价值转化为来自大型生成式 VLA 策略的更优动作

然后，现有工作仅部分满足这些要求

Amin 等人 [15-π*0.6 : a vla that learns from experience] 将离线价值学习与迭代式离线 RL 结合，但其过程较为缓慢，并且没有直接利用从已学习价值函数中得到的动作梯度

Luo等人[16-SERL, 17-HIL-SERL] 展示了在线 RL 可以通过真实世界交互在较短时间内学会具有挑战性的机器人操作任务，但其是从零开始训练任务特定策略，而不是在此基础上改进一个预训练的通才策略

基于 on-policy 的 VLA 微调方法
18-Vla-rl
19-Interactive post-training for vision-language-action models，即RIPT-VLA
在传统的"预训练 + 监督微调（SFT）"两阶段范式之上，引入第三个阶段------基于强化学习的交互式后训练，仅利用稀疏的二元成功/失败奖励
20-πrl: Online rl fine-tuning for flow-based vision-language-action models
21-Flow-grpo: Training flow matching models via online rl
22-Reinflow: Finetuning flow matching policy with online reinforcementlearning

直接利用在线 rollout 对预训练策略进行更新，但并未设计为高效复用大规模离线或off-policy 部署缓冲区的数据
这类方法也不会学习显式的动作价值评论家（action-value critic），因此无法利用动作空间上的评论家梯度来指导策略改进

综合来看，++这些局限性共同促使作者采用一种"离线到在线"的 RL 思路++：既能复用异质的部署数据，又能在保持稳定性的前提下改进预训练的生成式 VLA 策略

由此，作者提出了车队规模的离线到在线强化学习（Fleet-Scale Offline-to-Online RL），这是一个用于在大规模真实部署系统中对端到端 VLA 策略进行后训练的离线到在线框架

该框架由两部分组成：

基于离线数据的分布式价值学习
以及来自自主部署的经验，并通过稳定的策略提取机制，将价值提升迁移为基于流(flow-based)的 VLA 策略

具体而言

在价值学习方面，作者提出了分布式隐式价值学习(Distributional Implicit Value Learning，DIVL)
DIVL 构建在 Implicit Q-Learning [23-Offline reinforcement learning with implicit q-learning] 的价值学习组件之上，但用分布式价值模型替代了标量 expectile 价值回归******

这一选择在规模部署场景中尤为关键：机器人在不同策略版本下、跨异质场景、以异步方式收集数据，且奖励稀疏，包含失败、部分恢复以及偶发的人类干预

因此，同一状态-动作对所对应的回报可能呈现多峰分布且具有重尾特性
标量评论器(scalar critic)可能会将这些结果压缩为一个平均值，从而掩盖罕见但可复现的成功；而分布式评论器(distributional critic)则可以保留这些高回报模态

因此，DIVL 在保持隐式价值学习"在支持集内(in-support)策略改进"性质的同时，学习多步回报分布
这样一来，就能从大规模离策略部署缓冲区中获得稳定的学习信号，而无需策略去查询分布外的动作
在策略提取方面，作者采用带有 Adjoint Matching的 Q-learning(QAM)------以专门解决扩散/流匹配策略的策略提取难题
24-Adjoint matching: Fine-tuning flow and diffusion generative models with memoryless stochastic optimal control，建立了 Adjoint Matching 的数学基础与生成模型应用
25-Q-learning with adjoint matching，将其迁移至 RL 领域，解决了"如何利用 critic 动作梯度稳定训练高表达能力策略"这一长期难题

critic 能为动作提供有用的梯度，但若将这些梯度沿着流式策略的完整多步去噪过程反向传播，则会变得不稳定且代价高昂
QAM 将在去噪动作处得到的 critic 梯度转换为针对流模型的逐步监督
这样一来，就能在保持生成式动作建模表达能力的同时，为从学习到的价值函数中稳定地更新 VLA 策略提供一种方法

总之，QAM 将 Domingo-Enrich 等人提出的 Adjoint Matching 技术从生成模型领域引入 RL，把 critic 的动作梯度转换为逐步step-wise目标函数。这使其能够：

完全避免通过多步去噪过程的不稳定反向传播

在理论上无偏地收敛到最优行为约束策略

保留多步流策略的完整表达能力

完整系统分为两个阶段：

首先在来自多种来源的混合数据上进行离线预训练
随后利用部署阶段的数据进行快速在线微调

两个阶段都优化相同的强化学习RL目标 ，这减轻了一种常见的"离线到在线"不匹配问题：离线阶段学到的 critic 可能会过于保守，并且对后续的在线微调校准不佳，而在线性能提升则依赖于对新访问动作的价值进行外推 [26-Cal-ql: Calibrated offline rl pre-training for efficient online fine-tuning]

关于Cal-ql，详见本博客的解读《Calibrated Q-learning(简称Cal-QL)------为高效在线微调而对"离线RL预训练"做校准：让学到的Q值有上界(保持标准CQL已做到的相对保守)，但保守得有底线(不能过分保守)》

最终，作者在一支由 16 台双臂机器人组成的机队上对其进行实例化，覆盖八个操作任务。在这些任务中，RL 可以通过多步动态规划传播回报，并将跨越部分进展的价值估计"拼接"起来，而模仿学习方法则更严重地受到误差累积的影响，而该 LWD 流程在典型情况下只需要数小时的真实世界交互

1.1.2 相关工作

首先，对于机器人通用策略的后训练

通用机器人策略，包括VLA 模型，通过在大规模、多样化的多模态数据上进行预训练来获取广泛的能力[2-Rt-2, 3-Octo, 4-Openvla, 6-π0.5]

为了将这些策略适配到下游部署，近期工作探索了多种后训练策略

27-Grape: Generalizing robot policy via preference alignment

20-πRL

12-RL100

15-π*0.6

28-Rlinf-vla: A unified and efficient framework for vla+ rl training

29-What can rl bring to vla generalization? an empirical study

其中一个方向研究离线(RL)后训练，即使用先前收集的rollouts来改进策略 [27-Grape, 15-π*0.6, 30-RLDG]

π∗0.6 将离线价值学习与迭代离线RL 相结合，在单个真实世界任务上取得了显著提升[15]
RLDG使用专门的RL 来生成用于策略蒸馏的数据，提供了另一种引入RL 监督的方式[30]
详见本博客中的解读《知识蒸馏RLDG：先基于精密任务训练RL策略(HIL-SERL)，得到的RL数据去微调OpenVLA，最终效果超越人类演示数据》

然而，仅使用离线的后训练遵循 "收集-训练-部署" 的循环，无法立刻利用在部署过程中收集到的经验，从而使得对分布偏移的适应较为缓慢[15, 30]

LWD 则是在部署期间更新策略，使新收集到的经验能够快速纠正此类偏移

另一类相关工作使用在线RL进行后训练

包括 VLA-RL [18] 和 RIPT [19]，在模拟任务中的专用策略上取得了显著提升
31-Behavior-1k: A benchmark for embodied ai with 1,000 everyday activities and realistic simulation
32-Maniskill: Generalizable manipulation skill benchmark with large-scale demonstrations
33-Libero: Benchmarking knowledge transfer for lifelong robot learning
34-Robotwin: Dual-arm robot benchmark with generative digital twins (early version)
20-πRL
35-Rlinf-user: A unified and extensible system for real-world online policy learning in
embodied ai
36-Wovr: World models as reliable simulators for post-training vla policies with rl
------
然而，这些方法通常依赖于 on-policy 的数据收集方式，对于现实世界机器人而言，这种方式在样本利用上效率较低且成本较高 [20-πRL, 37-Simplevla-rl: Scaling vla training via reinforcement learning*]*

相较之下，LWD 从大规模离线数据集学习，并结合 off-policy 的在线重放，从而提升了现实世界后训练的可行性

当然了，近期方法也将离线与在线阶段相结合：先在rollout 数据集上进行离线预训练，然后通过实时交互进行在线细化

13-Gr-rl，详见本博客中的解读《GR-RL------首个让机器人系鞋带的VLA：先离线RL训练一个"分布式价值评估器"以做任务进度预测，后数据增强，最后在线RL》
14-Conrft
对于Conrft，详见本博客中的解读《ConRFT------Consistency Policy下RL微调VLA的方法：先通过示教数据离线微调(Cal-QL的Q损失基础上引入BC损失)，后在线RL微调(引入RLPD的新老数据对称采样及人工干预)》
12-Rl-100，详见本博客中的解读《RL-100------基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL*》*

不过，以往方法通常学习的是针对单一任务定制的专用策略，从而限制了在多样化部署场景中的泛化能力 [13, 12]

总之，LWD 在本质上与这些工作不同：它对通用机器人策略执行从离线到在线的后训练，而不是学习针对特定任务的专用策略。这使得能够在多个真实世界任务上对单一策略进行可扩展的后训练，其中包括具有稀疏奖励的长时间跨度任务

其次，对于离线到在线的强化学习

离线到在线的强化学习（offline-to-online RL）先在多样化的离线数据上进行预训练，然后通过在线交互持续优化

38-Flow q-learning

25-Q-learning with adjoint matching

39-Uni-o4: Unifying online and offline deep reinforcement learning with multi-step on-policy optimization

40-Offlineto-online reinforcement learning via balanced replay and pessimistic q-ensemble

12-Rl-100

14-Conrft

30-Rldg

41-Reincarnating reinforcement learning: Reusing prior computation to accelerate progress

42-Efficient online reinforcement learning with offline data，详见本博客中的解读《RLPD------利用离线数据实现高效的在线RL：不进行离线RL预训练，直接应用离策略方法SAC，在线学习时对称采样离线数据》

Luo 等人[16-SERL, 17-HIL-SERL] 利用少量人类示范来启动策略学习，并随后通过真实世界交互对单一机器人技能进行专门化
然而，LWD 与这一方法不同之处在于：它在多任务上对一个共享的通用 VLA 策略进行后训练，将离线与在线的回放统一在一个学习循环中，并在分布式、车队级部署环境下运行
近期研究采用不同的策略提取机制，在在线改进阶段重用离线数据
25-Q-learning with adjoint matching
43-Awac:Accelerating online reinforcement learning with offline datasets
44-Hybrid rl: Using both offline and online data can make rl efficient
45-Steering your diffusion policy with latent space reinforcement learning
Wagenmaker 等人 [45] 提出 DSRL ，通过在潜在噪声空间上使用 RL 自适应地微调预训练扩散策略，以实现样本效率较高的在线到离线改进
Li 和 Levine [25]提出 QAM，利用价值网络critic梯度通过伴随匹配(adjoint matching)来改进基于流的策略，从而在模拟环境中从零开始实现稳定训练

然而，现有方法尚未在通用型 VLA 策略的稳定车队级后训练方面得到验证。LWD 针对这一问题进行研究，并采用 QAM，在大规模真实世界部署中实现离线到在线的强化学习

近期的机器人后训练方法引入了离线到在线的强化学习offline-to-online RL以改进策略

13-Gr-rl
12-Rl-100
14-Conrft
30-RLDG，详见本博客中的解读《知识蒸馏RLDG：先基于精密任务训练RL策略(HIL-SERL)，得到的RL数据去微调OpenVLA，最终效果超越人类演示数据》

然而，这些方法通常侧重于针对特定任务的策略，在离线到在线各阶段之间的训练目标不一致，并且仅在受限的部署规模下运行

相比之下，LWD 通过车队级的离线到在线强化学习，在多样化任务上训练通用策略。它在离线和在线阶段采用统一的训练方法，从而提升了训练的稳定性和可扩展性

// 待更