【论文阅读】ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

快速了解部分

1.题目: ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

2.时间: 2026.04

3.机构: GigaAI, Sichuan University, Tsinghua University

4.3个英文关键词: Video-Generative Model, Value Estimation, Robotic Reinforcement Learning

本文提出了一种名为ViVa的模型，利用视频生成模型（Video-Generative Model）来预测机器人的动作价值，通过"想象"未来的动作状态来判断当前任务是否在正确进行，从而指导机器人学习。

现有的基于VLM（Vision-Language Model）的价值模型主要依赖静态图像理解，缺乏对时间流逝和物理动态变化的感知，导致在长程任务中难以准确评估任务进展，也无法有效处理未见过的物体。

利用预训练的视频生成模型（Wan2.2）作为骨干，将价值预测转化为对未来机器人本体感觉（Proprioception）和任务回报（Return）的联合生成预测。

作者认为价值估计本质上是对未来结果的预测问题。相比于只能看静态画面的VLM，能够生成视频的模型（Video-Generative Model）天生具备理解物理世界动态演变的能力，这种能力非常适合用来判断机器人当前的行为是否能导向成功的结果。

范式转换：打破了以往将价值预测视为分类问题（VLM-based）的传统，将其重构为视频生成任务中的未来状态预测问题。
多模态联合预测：模型不仅预测一个标量价值，还同时预测未来的机器人本体感觉状态，迫使模型理解物理动力学。
泛化能力：利用视频模型学习到的时空先验（Spatiotemporal Priors），模型在未见过的物体（如折叠裤子）上表现出极强的泛化能力，而不仅仅是死记硬背训练数据的视觉特征。

ViVa的核心逻辑是"眼见为实，预判未来 "。

传统的VLM价值模型像是一个只看过单张照片的评论家，只能根据当前画面猜任务完成了多少；而ViVa像是一个看过无数视频的预言家，它通过"脑补"接下来机器人的动作和画面，如果"脑补"出的结果是成功的，它就给当前状态打高分，如果"脑补"出的结果乱七八糟，就打低分。

输入处理：将当前的多视角图像和机器人状态编码为Latent（潜在变量），并作为视频的"前缀"。
目标构造：将未来的机器人状态（Future Proprioception）和代表任务进度的标量值（Scalar Value）也编码成类似视频帧的Latent形式。
模型训练：使用预训练的视频扩散Transformer（Wan2.2），训练它根据当前的"前缀"画面，去预测未来的"机器人动作画面"和"任务分数画面"。
价值提取：在推理时，模型生成出那个代表"分数的画面"，将其解码还原成0到1之间的数值，即为当前状态的价值。

任务：现实世界中的衬衫折叠、盒子包装组装、卫生纸整理。
对比：ViVa vs. VLM-based Value Function (如π0.6\pi_0.6π0.6)。
结果：
- 盒装任务：ViVa的成功率（73%）和吞吐量显著高于VLM方案（58%）。
- 泛化测试：在未训练过的"折叠裤子"任务中，ViVa的价值曲线能准确跟随关键步骤上升，而VLM模型则完全混乱。
- 敏感度：ViVa能敏锐捕捉到盒子盖歪、物品掉落等细微错误并给出价值下降信号，VLM则对此迟钝。
结论：基于视频生成的价值模型比基于静态视觉的语言模型更能理解物理交互，提供更可靠的价值信号。

π0.6\pi_0.6π0.6 / π0.5\pi_0.5π0.5：Physical Intelligence团队提出的VLA模型，其价值函数基于VLM分类。
GigaBrain-0：GigaAI团队的基线模型。
GVL：将价值预测视为时间排序问题的工作。
RT-2 / Octo：相关的视觉-语言-动作模型。

π0.6\pi_0.6π0.6 (Intelligence et al., 2025)：ViVa直接对比并改进了该工作中的RECAP框架和价值函数设计。
Wan2.2 (Wan et al., 2025)：ViVa模型的底层视频生成骨干网络，是其实现时空推理能力的基础。
GVL (Ma et al., 2024)：代表了前人利用VLM进行价值估计的主流方法，ViVa在方法论上与其形成"生成式vs判别式"的对比。