【论文阅读】Vision Language Models are In-Context Value Learners

这里写自定义目录标题

  • [1 论文信息](#1 论文信息)
  • [2 背景](#2 背景)
  • [3 方法:上下文学习/情境学习(In-Context Learning)](#3 方法:上下文学习/情境学习(In-Context Learning))
    • [3.1 冻结权重](#3.1 冻结权重)
    • [3.2 示例输入](#3.2 示例输入)
    • [3.2 自回归预测(Autoregressive Prediction)](#3.2 自回归预测(Autoregressive Prediction))
    • 注意:无需训练
  • [4 总结](#4 总结)

1 论文信息

团队:Google Deepmind

时间:2025

论文链接:https://arxiv.org/pdf/2411.04549

项目链接:https://generative-value-learning.github.io/

2 背景

  • 任务:对任务进度进行评估
  • 当前的问题:
    • 泛化性差:传统的价值估计方法通常在少量纯视觉数据上训练,缺乏对新任务、新场景的语义和时空理解,难以跨任务和跨机器人平台泛化 。
    • 数据需求大:训练一个能覆盖多种任务的进度估计器需要海量的多样化数据 。
  • 应用:数据集过滤;数据集加权

3 方法:上下文学习/情境学习(In-Context Learning)

3.1 冻结权重

GVL 直接使用预训练好的、冻结的(Frozen)基础 VLM(如 Gemini-1.5-Pro),无需针对特定的机器人任务进行任何模型训练或微调(No-finetuning) 。

3.2 示例输入

GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例(可以是同一个机器人的,也可以是人类演示的),即few shot。

  • 输入内容:从一段完整的成功视频(包含从开始到结束的全过程)中随机抽取 30 帧。

  • 处理方式:这 30 帧除了第 1 帧固定不动外,其余 29 帧的顺序被彻底打乱。

  • 标签信息:每一帧都会被打上一个对应的进度标签(0% 到 100%)。

  • 目的:这相当于告诉 VLM:"你看,这 30 张图是一次成功的任务,虽然顺序乱了,但你可以通过观察画面内容(比如物体的位置、机械臂的姿态)来判断它当时做到了什么程度。"

一些细节:

  • 锚点帧(Anchor Point):为了让模型理解进度的起点,GVL 在打乱帧序列时,始终保留原始视频的第一帧不被打乱,将其作为参考原点(Anchor Point) 。这让模型明确了"0% 进度"的具体画面状态。

  • 固定的帧采样:为了保持输入的一致性,GVL 通常会将每个轨迹示例固定子采样为 30 帧 。这种标准化的输入长度有助于 VLM 区分不同的示例块。

3.2 自回归预测(Autoregressive Prediction)

在给完示例后,Prompt 会接着给出当前你想要评估的目标视频。

  • 输入内容:同样采样 30 帧,且同样是打乱顺序的。

  • 任务要求:让 VLM 仿照上面的示例,为这 30 帧分别输出一个进度百分比。

  • VLM 的反应:因为它刚刚看过示例,它知道不能根据"第几张图"来猜进度,而必须去寻找画面中的语义关键点(例如:在"把杯子放到托盘"任务中,杯子离托盘越近,进度就应该越高)。

注意:无需训练

由于无需训练,它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务 。

4 总结

GVL 并不是在"训练"一个模型,而是在"引导"一个已经具备强大世界知识的模型(如 Gemini-1.5-Pro)。它通过打乱帧序这一巧妙手段,迫使模型放弃简单的时序推断,转而深入理解画面中的语义进度,而示例则是为这种深层理解提供了必要的"上下文参考" 。

相关推荐
Forrit8 小时前
LLM微调后怎么评估好坏?
人工智能·transformer
坤岭8 小时前
大模型“入侵”广告推荐
人工智能·langchain·推荐算法
拾光向日葵8 小时前
2026考研:南京林业大学接受理学调剂的专业有哪些
大数据·人工智能·物联网
云边云科技_云网融合8 小时前
详解Token经济:智能时代的价值标尺与产业全链路重构
人工智能·aigc·token
LDG_AGI8 小时前
【搜索引擎】Elasticsearch(二):基于function_score的搜索排序
数据库·人工智能·深度学习·elasticsearch·机器学习·搜索引擎·推荐算法
AI攻城狮8 小时前
Anthropic 开源了 Claude 的 Agent Skills 仓库:文档技能的底层实现全公开了
人工智能·云原生·aigc
XM_jhxx8 小时前
从“自动化”到“自主化”:工业AI正在改变什么?
大数据·人工智能
CodeCraft Studio8 小时前
高性能图表库SciChart助力机器人实现实时AI驱动的性能提升
人工智能·信息可视化·机器人·数据可视化·scichart·高性能图表库·wpf图表库
这张生成的图像能检测吗8 小时前
(论文速读)UWDET:基于物联网的资源有限水下目标探测训练增强
人工智能·深度学习·物联网·目标检测·计算机视觉·水下目标检测
Nova_AI8 小时前
009、AI安全与可信:合规、治理与新兴市场
人工智能·安全