【论文阅读】ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

快速了解部分

基础信息(英文):

1.题目: ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

2.时间: 2026.04

3.机构: GigaAI, Sichuan University, Tsinghua University

4.3个英文关键词: Video-Generative Model, Value Estimation, Robotic Reinforcement Learning

1句话通俗总结本文干了什么事情

本文提出了一种名为ViVa的模型,利用视频生成模型(Video-Generative Model)来预测机器人的动作价值,通过"想象"未来的动作状态来判断当前任务是否在正确进行,从而指导机器人学习。

研究痛点:现有研究不足 / 要解决的具体问题

现有的基于VLM(Vision-Language Model)的价值模型主要依赖静态图像理解,缺乏对时间流逝和物理动态变化的感知,导致在长程任务中难以准确评估任务进展,也无法有效处理未见过的物体。

核心方法:关键技术、模型或研究设计(简要)

利用预训练的视频生成模型(Wan2.2)作为骨干,将价值预测转化为对未来机器人本体感觉(Proprioception)和任务回报(Return)的联合生成预测。

深入了解部分

作者想要表达什么

作者认为价值估计本质上是对未来结果的预测问题。相比于只能看静态画面的VLM,能够生成视频的模型(Video-Generative Model)天生具备理解物理世界动态演变的能力,这种能力非常适合用来判断机器人当前的行为是否能导向成功的结果。

相比前人创新在哪里

  1. 范式转换:打破了以往将价值预测视为分类问题(VLM-based)的传统,将其重构为视频生成任务中的未来状态预测问题。
  2. 多模态联合预测:模型不仅预测一个标量价值,还同时预测未来的机器人本体感觉状态,迫使模型理解物理动力学。
  3. 泛化能力:利用视频模型学习到的时空先验(Spatiotemporal Priors),模型在未见过的物体(如折叠裤子)上表现出极强的泛化能力,而不仅仅是死记硬背训练数据的视觉特征。

解决方法/算法的通俗解释

ViVa的核心逻辑是"眼见为实,预判未来 "。

传统的VLM价值模型像是一个只看过单张照片的评论家,只能根据当前画面猜任务完成了多少;而ViVa像是一个看过无数视频的预言家,它通过"脑补"接下来机器人的动作和画面,如果"脑补"出的结果是成功的,它就给当前状态打高分,如果"脑补"出的结果乱七八糟,就打低分。

解决方法的具体做法

  1. 输入处理:将当前的多视角图像和机器人状态编码为Latent(潜在变量),并作为视频的"前缀"。
  2. 目标构造:将未来的机器人状态(Future Proprioception)和代表任务进度的标量值(Scalar Value)也编码成类似视频帧的Latent形式。
  3. 模型训练:使用预训练的视频扩散Transformer(Wan2.2),训练它根据当前的"前缀"画面,去预测未来的"机器人动作画面"和"任务分数画面"。
  4. 价值提取:在推理时,模型生成出那个代表"分数的画面",将其解码还原成0到1之间的数值,即为当前状态的价值。

基于前人的哪些方法

  1. Wan2.2 (Video Diffusion Transformer):作为核心的视频生成骨干网络。
  2. RECAP Framework:作为强化学习的训练框架(ViVa替代了其中原有的VLM价值函数)。
  3. Latent Injection:一种将非图像数据(如机器人状态、数值)注入到图像Latent空间的技术。

实验设置、数据、评估方式、结论

  1. 任务:现实世界中的衬衫折叠、盒子包装组装、卫生纸整理。
  2. 对比 :ViVa vs. VLM-based Value Function (如π0.6\pi_0.6π0.6)。
  3. 结果
    • 盒装任务:ViVa的成功率(73%)和吞吐量显著高于VLM方案(58%)。
    • 泛化测试:在未训练过的"折叠裤子"任务中,ViVa的价值曲线能准确跟随关键步骤上升,而VLM模型则完全混乱。
    • 敏感度:ViVa能敏锐捕捉到盒子盖歪、物品掉落等细微错误并给出价值下降信号,VLM则对此迟钝。
  4. 结论:基于视频生成的价值模型比基于静态视觉的语言模型更能理解物理交互,提供更可靠的价值信号。

提到的同类工作

  1. π0.6\pi_0.6π0.6 / π0.5\pi_0.5π0.5:Physical Intelligence团队提出的VLA模型,其价值函数基于VLM分类。
  2. GigaBrain-0:GigaAI团队的基线模型。
  3. GVL:将价值预测视为时间排序问题的工作。
  4. RT-2 / Octo:相关的视觉-语言-动作模型。

和本文相关性最高的3个文献

  1. π0.6\pi_0.6π0.6 (Intelligence et al., 2025):ViVa直接对比并改进了该工作中的RECAP框架和价值函数设计。
  2. Wan2.2 (Wan et al., 2025):ViVa模型的底层视频生成骨干网络,是其实现时空推理能力的基础。
  3. GVL (Ma et al., 2024):代表了前人利用VLM进行价值估计的主流方法,ViVa在方法论上与其形成"生成式vs判别式"的对比。
相关推荐
Shockang20 小时前
AI 设计工作流全景拆解:Figma MCP / Claude Design / Codex / Google Stitch
人工智能
To_OC21 小时前
数据集划分不是随便切:手把手切分大众点评情感数据集
人工智能·llm·agent
冬奇Lab1 天前
每日一个开源项目(第142篇):android/skills - Google 官方 Android 开发 AI Skill 库
人工智能·开源·资讯
冬奇Lab1 天前
Skill 系列(06):Skill 工程化与治理——路由准确率 38%、压缩节省 76%
人工智能·开源·agent
IT_陈寒1 天前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷1 天前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo1 天前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9201 天前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了1 天前
Vue3封装AI流式对话组件踩坑实录
人工智能