【论文阅读】Vision Language Models are In-Context Value Learners

EEPI2025-12-30 13:07

这里写自定义目录标题

[1 论文信息](#1 论文信息)
[2 背景](#2 背景)
[3 方法：上下文学习/情境学习（In-Context Learning）](#3 方法：上下文学习/情境学习（In-Context Learning）)
- [3.1 冻结权重](#3.1 冻结权重)
- [3.2 示例输入](#3.2 示例输入)
- [3.2 自回归预测（Autoregressive Prediction）](#3.2 自回归预测（Autoregressive Prediction）)
- 注意：无需训练
[4 总结](#4 总结)

1 论文信息

团队：Google Deepmind

时间：2025

论文链接：https://arxiv.org/pdf/2411.04549

项目链接：https://generative-value-learning.github.io/

2 背景

任务：对任务进度进行评估
当前的问题：
- 泛化性差：传统的价值估计方法通常在少量纯视觉数据上训练，缺乏对新任务、新场景的语义和时空理解，难以跨任务和跨机器人平台泛化。
- 数据需求大：训练一个能覆盖多种任务的进度估计器需要海量的多样化数据。
应用：数据集过滤；数据集加权

3 方法：上下文学习/情境学习（In-Context Learning）

3.1 冻结权重

GVL 直接使用预训练好的、冻结的（Frozen）基础 VLM（如 Gemini-1.5-Pro），无需针对特定的机器人任务进行任何模型训练或微调（No-finetuning）。

3.2 示例输入

GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例（可以是同一个机器人的，也可以是人类演示的），即few shot。

输入内容：从一段完整的成功视频（包含从开始到结束的全过程）中随机抽取 30 帧。
处理方式：这 30 帧除了第 1 帧固定不动外，其余 29 帧的顺序被彻底打乱。
标签信息：每一帧都会被打上一个对应的进度标签（0% 到 100%）。
目的：这相当于告诉 VLM："你看，这 30 张图是一次成功的任务，虽然顺序乱了，但你可以通过观察画面内容（比如物体的位置、机械臂的姿态）来判断它当时做到了什么程度。"

一些细节：

锚点帧（Anchor Point）：为了让模型理解进度的起点，GVL 在打乱帧序列时，始终保留原始视频的第一帧不被打乱，将其作为参考原点（Anchor Point）。这让模型明确了"0% 进度"的具体画面状态。
固定的帧采样：为了保持输入的一致性，GVL 通常会将每个轨迹示例固定子采样为 30 帧。这种标准化的输入长度有助于 VLM 区分不同的示例块。

3.2 自回归预测（Autoregressive Prediction）

在给完示例后，Prompt 会接着给出当前你想要评估的目标视频。

输入内容：同样采样 30 帧，且同样是打乱顺序的。
任务要求：让 VLM 仿照上面的示例，为这 30 帧分别输出一个进度百分比。
VLM 的反应：因为它刚刚看过示例，它知道不能根据"第几张图"来猜进度，而必须去寻找画面中的语义关键点（例如：在"把杯子放到托盘"任务中，杯子离托盘越近，进度就应该越高）。

注意：无需训练

由于无需训练，它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务。

4 总结

GVL 并不是在"训练"一个模型，而是在"引导"一个已经具备强大世界知识的模型（如 Gemini-1.5-Pro）。它通过打乱帧序这一巧妙手段，迫使模型放弃简单的时序推断，转而深入理解画面中的语义进度，而示例则是为这种深层理解提供了必要的"上下文参考" 。

上一篇：学JavaWeb第五天——MySQL

下一篇：手写TCP/IP协议栈——TCP结构定义与基本接口实现

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 05Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 06OpenClaw优化飞书API 额度已耗尽问题 07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08Window 10部署openclaw报错node.exe : npm error code 128 09小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）10OpenClaw大龙虾机器人完整安装教程