【论文自动阅读】

快速了解部分

1.题目: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

2.时间: 2025.09

3.机构: Shanghai AI Lab

4.3个英文关键词: Vision-Language-Action (VLA), Real-World Reinforcement Learning (RL), Dense Reward

本文提出了一种名为VLAC的模型，它能让机器人通过"看"和"理解"任务描述来给自己打分（奖励），从而在真实世界中通过自我尝试和犯错来学习如何完成各种复杂动作，而不需要人类为每个任务单独设计打分规则。

奖励函数稀疏且手工设计困难：真实世界强化学习通常依赖稀疏的最终成功/失败信号，或者需要为每个特定任务手工设计复杂的奖励函数（Reward Shaping），这既昂贵又缺乏通用性。
探索效率低与泛化能力弱：现有的VLA模型主要依赖模仿学习，难以处理未见过的任务或环境变化；而现有的奖励模型往往无法很好地泛化到新任务，且难以区分失败或停滞的轨迹。
缺乏统一架构：现有的方法通常将"策略"（决定怎么做）和"批评家"（评价做得怎么样）分开，导致集成困难。

提出了 VLAC (Vision-Language-Action-Critic) 模型：

统一模型：基于InternVL构建，同一个模型既负责生成动作（Actor），也负责评估任务进度给出奖励（Critic）。
成对进度理解（Pair-wise Progress Understanding）：模型接收两张图片（前后状态）和语言指令，输出一个进度差值（Delta）作为密集奖励信号。
真实世界RL框架：结合PPO算法，利用VLAC提供的密集奖励进行策略优化，并引入分级的人机交互机制（如离线演示回放）来加速学习。

一体化设计：首次在一个自回归架构中统一了VLA策略和进度批评家，无需针对不同任务设计特定的奖励模型。
强大的泛化能力：通过大规模异构数据（包含人类视频和机器人数据）训练，实现了零样本（Zero-shot）和上下文学习（In-context learning）能力，能直接迁移到未见过的任务和环境中。
密集内在奖励：利用成对图像对比生成密集的进度奖励，解决了真实世界中缺乏传感器反馈和奖励稀疏的问题。

想象一个学开车的机器人，通常需要教练（奖励函数）时刻打分。VLAC模型相当于给机器人装了一个"懂任务的AI教练"。

数据构建 ：
- 将视频切分为成对的图像帧（Pair-wise），计算时间差作为进度标签。
- 混合了大规模人类视频数据（Ego4D等）、公开机器人数据（Bridge, Droid等）和VQA数据。
- 构造了负样本（如倒退的动作、语义不匹配的描述）来增强模型对失败的识别。
模型训练 ：
- Critic部分：训练模型预测两帧图像间的进度差值（Delta Progress）和任务完成标志（Done Signal）。
- Actor部分：训练模型输出具体的机械臂控制指令（Delta Pose）。
RL部署 ：
- 在真实环境中，VLAC模型交替生成奖励和动作。
- 使用PPO算法更新策略。
- 引入"人机回路"：包括离线演示回放、人工重置到难点位置探索（Return and Explore）、人工引导探索（Human Guided Explore）。

数据：混合了4000+小时的人类数据、1200小时的公开机器人数据和自采数据。
设置：在4个真实世界的操作任务中测试（舀米转移、铺 mats、端碗放置、桌面清扫），使用AGILE PiPER机械臂。
评估：
- Critic：使用VOC（Value-Order Correlation）评估预测进度与实际时间顺序的相关性。
- Actor：使用任务成功率（Success Rate）。
结论：
- VLAC在未见过的任务上表现出强泛化能力（One-shot）。
- 在真实世界RL中，成功率从基线的约30%提升至90%（200个回合内）。
- 引入人工干预后，样本效率提高50%，最终可达到100%成功率。

InternVL (被作为基础模型架构，是本文模型的根基)。
VIP (Value-Implicit Pre-training) (Ma et al.): 本文在评估部分多次对比了此类基于视觉表示学习的奖励模型，作为主要的竞争或参考基准。
SERL / ReBoot (Luo et al., Hu et al.): 本文在"人机回路"和"真实世界RL框架"设计上参考了这些工作，特别是关于如何利用人类干预加速学习的部分。

主要核心点是把critic集成到一个模型，而且GT label是自动的，Reward不是人工打标签。是按照任务进度来，给2帧，如果正向进展那就是Reward，如果反向了，那就是惩罚。