【论文阅读】Vision Language Models are In-Context Value Learners

这里写自定义目录标题

  • [1 论文信息](#1 论文信息)
  • [2 背景](#2 背景)
  • [3 方法:上下文学习/情境学习(In-Context Learning)](#3 方法:上下文学习/情境学习(In-Context Learning))
    • [3.1 冻结权重](#3.1 冻结权重)
    • [3.2 示例输入](#3.2 示例输入)
    • [3.2 自回归预测(Autoregressive Prediction)](#3.2 自回归预测(Autoregressive Prediction))
    • 注意:无需训练
  • [4 总结](#4 总结)

1 论文信息

团队:Google Deepmind

时间:2025

论文链接:https://arxiv.org/pdf/2411.04549

项目链接:https://generative-value-learning.github.io/

2 背景

  • 任务:对任务进度进行评估
  • 当前的问题:
    • 泛化性差:传统的价值估计方法通常在少量纯视觉数据上训练,缺乏对新任务、新场景的语义和时空理解,难以跨任务和跨机器人平台泛化 。
    • 数据需求大:训练一个能覆盖多种任务的进度估计器需要海量的多样化数据 。
  • 应用:数据集过滤;数据集加权

3 方法:上下文学习/情境学习(In-Context Learning)

3.1 冻结权重

GVL 直接使用预训练好的、冻结的(Frozen)基础 VLM(如 Gemini-1.5-Pro),无需针对特定的机器人任务进行任何模型训练或微调(No-finetuning) 。

3.2 示例输入

GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例(可以是同一个机器人的,也可以是人类演示的),即few shot。

  • 输入内容:从一段完整的成功视频(包含从开始到结束的全过程)中随机抽取 30 帧。

  • 处理方式:这 30 帧除了第 1 帧固定不动外,其余 29 帧的顺序被彻底打乱。

  • 标签信息:每一帧都会被打上一个对应的进度标签(0% 到 100%)。

  • 目的:这相当于告诉 VLM:"你看,这 30 张图是一次成功的任务,虽然顺序乱了,但你可以通过观察画面内容(比如物体的位置、机械臂的姿态)来判断它当时做到了什么程度。"

一些细节:

  • 锚点帧(Anchor Point):为了让模型理解进度的起点,GVL 在打乱帧序列时,始终保留原始视频的第一帧不被打乱,将其作为参考原点(Anchor Point) 。这让模型明确了"0% 进度"的具体画面状态。

  • 固定的帧采样:为了保持输入的一致性,GVL 通常会将每个轨迹示例固定子采样为 30 帧 。这种标准化的输入长度有助于 VLM 区分不同的示例块。

3.2 自回归预测(Autoregressive Prediction)

在给完示例后,Prompt 会接着给出当前你想要评估的目标视频。

  • 输入内容:同样采样 30 帧,且同样是打乱顺序的。

  • 任务要求:让 VLM 仿照上面的示例,为这 30 帧分别输出一个进度百分比。

  • VLM 的反应:因为它刚刚看过示例,它知道不能根据"第几张图"来猜进度,而必须去寻找画面中的语义关键点(例如:在"把杯子放到托盘"任务中,杯子离托盘越近,进度就应该越高)。

注意:无需训练

由于无需训练,它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务 。

4 总结

GVL 并不是在"训练"一个模型,而是在"引导"一个已经具备强大世界知识的模型(如 Gemini-1.5-Pro)。它通过打乱帧序这一巧妙手段,迫使模型放弃简单的时序推断,转而深入理解画面中的语义进度,而示例则是为这种深层理解提供了必要的"上下文参考" 。

相关推荐
cxr82811 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成
litble11 小时前
如何速成LLM以伪装成一个AI研究者(6)——LoRA,Adapter,P-tuning,量化,QLoRA
人工智能·lora·量化·peft·qlora·高效微调
开发者每周简报11 小时前
网海三部曲·无名宗师传
javascript·人工智能
卷毛的技术笔记11 小时前
告别硬编码!Spring AI Alibaba 实现 AI Agent 智能工具调用(Tool Calling)
java·人工智能·后端·python·spring·ai编程
Cosolar11 小时前
从零写一个 Attention Is All You Need
人工智能·面试·架构
ai_xiaogui12 小时前
PanelAI:新一代AI算力调度系统,支持本地大模型一键部署与商业运营
人工智能·panelai·panelai算力调度系统·本地大模型一键部署平台·ai应用市场管理面板·企业级部署·2026本地ai私有化解决方案
冬奇Lab12 小时前
Agent 系列(9):多 Agent 架构设计模式——Supervisor 与 Pipeline
人工智能·源码·agent
冬奇Lab12 小时前
每日一个开源项目(第118篇):SkillOpt - 像训练神经网络一样优化 LLM Agent 的技能
人工智能·开源·agent
yuanyuan2o212 小时前
模型预训练:Hugging Face Transformers 基础
算法·ai·语言模型·自然语言处理·nlp·深度优先