【论文阅读】Vision Language Models are In-Context Value Learners

这里写自定义目录标题

  • [1 论文信息](#1 论文信息)
  • [2 背景](#2 背景)
  • [3 方法:上下文学习/情境学习(In-Context Learning)](#3 方法:上下文学习/情境学习(In-Context Learning))
    • [3.1 冻结权重](#3.1 冻结权重)
    • [3.2 示例输入](#3.2 示例输入)
    • [3.2 自回归预测(Autoregressive Prediction)](#3.2 自回归预测(Autoregressive Prediction))
    • 注意:无需训练
  • [4 总结](#4 总结)

1 论文信息

团队:Google Deepmind

时间:2025

论文链接:https://arxiv.org/pdf/2411.04549

项目链接:https://generative-value-learning.github.io/

2 背景

  • 任务:对任务进度进行评估
  • 当前的问题:
    • 泛化性差:传统的价值估计方法通常在少量纯视觉数据上训练,缺乏对新任务、新场景的语义和时空理解,难以跨任务和跨机器人平台泛化 。
    • 数据需求大:训练一个能覆盖多种任务的进度估计器需要海量的多样化数据 。
  • 应用:数据集过滤;数据集加权

3 方法:上下文学习/情境学习(In-Context Learning)

3.1 冻结权重

GVL 直接使用预训练好的、冻结的(Frozen)基础 VLM(如 Gemini-1.5-Pro),无需针对特定的机器人任务进行任何模型训练或微调(No-finetuning) 。

3.2 示例输入

GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例(可以是同一个机器人的,也可以是人类演示的),即few shot。

  • 输入内容:从一段完整的成功视频(包含从开始到结束的全过程)中随机抽取 30 帧。

  • 处理方式:这 30 帧除了第 1 帧固定不动外,其余 29 帧的顺序被彻底打乱。

  • 标签信息:每一帧都会被打上一个对应的进度标签(0% 到 100%)。

  • 目的:这相当于告诉 VLM:"你看,这 30 张图是一次成功的任务,虽然顺序乱了,但你可以通过观察画面内容(比如物体的位置、机械臂的姿态)来判断它当时做到了什么程度。"

一些细节:

  • 锚点帧(Anchor Point):为了让模型理解进度的起点,GVL 在打乱帧序列时,始终保留原始视频的第一帧不被打乱,将其作为参考原点(Anchor Point) 。这让模型明确了"0% 进度"的具体画面状态。

  • 固定的帧采样:为了保持输入的一致性,GVL 通常会将每个轨迹示例固定子采样为 30 帧 。这种标准化的输入长度有助于 VLM 区分不同的示例块。

3.2 自回归预测(Autoregressive Prediction)

在给完示例后,Prompt 会接着给出当前你想要评估的目标视频。

  • 输入内容:同样采样 30 帧,且同样是打乱顺序的。

  • 任务要求:让 VLM 仿照上面的示例,为这 30 帧分别输出一个进度百分比。

  • VLM 的反应:因为它刚刚看过示例,它知道不能根据"第几张图"来猜进度,而必须去寻找画面中的语义关键点(例如:在"把杯子放到托盘"任务中,杯子离托盘越近,进度就应该越高)。

注意:无需训练

由于无需训练,它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务 。

4 总结

GVL 并不是在"训练"一个模型,而是在"引导"一个已经具备强大世界知识的模型(如 Gemini-1.5-Pro)。它通过打乱帧序这一巧妙手段,迫使模型放弃简单的时序推断,转而深入理解画面中的语义进度,而示例则是为这种深层理解提供了必要的"上下文参考" 。

相关推荐
huisheng_qaq几秒前
【AI入门篇-02】深入理解ChatGPT发展流程
人工智能·gpt·ai·chatgpt·大模型·transfomer
带娃的IT创业者4 分钟前
US Cities Are Axing Flock Safety Surveillance Technology: 当监控之眼被蒙上,我们在守护什么?
人工智能·智慧城市·数据治理·公共安全·隐私保护·监控技术·技术伦理
愚公搬代码5 分钟前
【愚公系列】《AI漫剧创作一本通》004-剧本拆解,把小说改编为可落地的脚本(爆款AI漫剧,从选择合适的小说开始)
人工智能·ai漫剧
玩转单片机与嵌入式7 分钟前
学习嵌入式AI(TInyML),只需掌握这点python基础即可!
人工智能·python·学习
mit6.82412 分钟前
从 Vibe Coding 到 Agentic Engineering
人工智能
kay_54516 分钟前
YOLO26改进| 主干网络 | 提升长距离特征建模与全局上下文理解能力【CVPR】
人工智能·目标检测·计算机视觉·目标跟踪·论文·yolo26·yolo26改进
ting945200020 分钟前
Huddle01 VMs 支持 AI 助手一键部署,MCP 协议重塑云基础设施管理
人工智能
地理探险家20 分钟前
我整理了一份动物数据集合集,做深度学习的直接省掉80%时间(附使用建议)
人工智能·深度学习·数据集·图像·动物
硅谷秋水26 分钟前
语言智体的Harness工程:Harness层作为控制、智体和运行时
人工智能·深度学习·机器学习·语言模型
老黄编程29 分钟前
大型工地实时数据处理与三维重构系统方案(极简中心化部署版)
人工智能·数码相机·计算机视觉·大数据处理·入侵检测·三维重构