【论文阅读】Vision Language Models are In-Context Value Learners

这里写自定义目录标题

  • [1 论文信息](#1 论文信息)
  • [2 背景](#2 背景)
  • [3 方法:上下文学习/情境学习(In-Context Learning)](#3 方法:上下文学习/情境学习(In-Context Learning))
    • [3.1 冻结权重](#3.1 冻结权重)
    • [3.2 示例输入](#3.2 示例输入)
    • [3.2 自回归预测(Autoregressive Prediction)](#3.2 自回归预测(Autoregressive Prediction))
    • 注意:无需训练
  • [4 总结](#4 总结)

1 论文信息

团队:Google Deepmind

时间:2025

论文链接:https://arxiv.org/pdf/2411.04549

项目链接:https://generative-value-learning.github.io/

2 背景

  • 任务:对任务进度进行评估
  • 当前的问题:
    • 泛化性差:传统的价值估计方法通常在少量纯视觉数据上训练,缺乏对新任务、新场景的语义和时空理解,难以跨任务和跨机器人平台泛化 。
    • 数据需求大:训练一个能覆盖多种任务的进度估计器需要海量的多样化数据 。
  • 应用:数据集过滤;数据集加权

3 方法:上下文学习/情境学习(In-Context Learning)

3.1 冻结权重

GVL 直接使用预训练好的、冻结的(Frozen)基础 VLM(如 Gemini-1.5-Pro),无需针对特定的机器人任务进行任何模型训练或微调(No-finetuning) 。

3.2 示例输入

GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例(可以是同一个机器人的,也可以是人类演示的),即few shot。

  • 输入内容:从一段完整的成功视频(包含从开始到结束的全过程)中随机抽取 30 帧。

  • 处理方式:这 30 帧除了第 1 帧固定不动外,其余 29 帧的顺序被彻底打乱。

  • 标签信息:每一帧都会被打上一个对应的进度标签(0% 到 100%)。

  • 目的:这相当于告诉 VLM:"你看,这 30 张图是一次成功的任务,虽然顺序乱了,但你可以通过观察画面内容(比如物体的位置、机械臂的姿态)来判断它当时做到了什么程度。"

一些细节:

  • 锚点帧(Anchor Point):为了让模型理解进度的起点,GVL 在打乱帧序列时,始终保留原始视频的第一帧不被打乱,将其作为参考原点(Anchor Point) 。这让模型明确了"0% 进度"的具体画面状态。

  • 固定的帧采样:为了保持输入的一致性,GVL 通常会将每个轨迹示例固定子采样为 30 帧 。这种标准化的输入长度有助于 VLM 区分不同的示例块。

3.2 自回归预测(Autoregressive Prediction)

在给完示例后,Prompt 会接着给出当前你想要评估的目标视频。

  • 输入内容:同样采样 30 帧,且同样是打乱顺序的。

  • 任务要求:让 VLM 仿照上面的示例,为这 30 帧分别输出一个进度百分比。

  • VLM 的反应:因为它刚刚看过示例,它知道不能根据"第几张图"来猜进度,而必须去寻找画面中的语义关键点(例如:在"把杯子放到托盘"任务中,杯子离托盘越近,进度就应该越高)。

注意:无需训练

由于无需训练,它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务 。

4 总结

GVL 并不是在"训练"一个模型,而是在"引导"一个已经具备强大世界知识的模型(如 Gemini-1.5-Pro)。它通过打乱帧序这一巧妙手段,迫使模型放弃简单的时序推断,转而深入理解画面中的语义进度,而示例则是为这种深层理解提供了必要的"上下文参考" 。

相关推荐
空白诗4 分钟前
CANN ops-nn 算子解读:AIGC 风格迁移中的 BatchNorm 与 InstanceNorm 实现
人工智能·ai
新芒4 分钟前
暖通行业两位数下滑,未来靠什么赢?
大数据·人工智能
weixin_4462608512 分钟前
掌握 Claude Code Hooks:让 AI 变得更聪明!
人工智能
小白|14 分钟前
CANN性能调优实战:从Profiling到极致优化的完整方案
人工智能
哈__14 分钟前
CANN加速图神经网络GNN推理:消息传递与聚合优化
人工智能·深度学习·神经网络
渣渣苏15 分钟前
Langchain实战快速入门
人工智能·python·langchain
七月稻草人16 分钟前
CANN 生态下 ops-nn:AIGC 模型的神经网络计算基石
人工智能·神经网络·aigc·cann
User_芊芊君子17 分钟前
CANN_MetaDef图定义框架全解析为AI模型构建灵活高效的计算图表示
人工智能·深度学习·神经网络
I'mChloe18 分钟前
CANN GE 深度技术剖析:图优化管线、Stream 调度与离线模型生成机制
人工智能
凯子坚持 c19 分钟前
CANN 生态全景:`cann-toolkit` —— 一站式开发套件如何提升 AI 工程效率
人工智能