快速了解部分
基础信息(英文):
1.题目: PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
2.时间: 2026.01
3.机构: Northwestern University, Arcadia University
4.3个英文关键词: Progress Reasoning, Vision-Language Models (VLMs), Robotic Manipulation
1句话通俗总结本文干了什么事情
本文旨在解决视觉语言模型(VLMs)难以仅凭一张图片推断任务完成进度的问题,提出了一种模仿人类"找参照+脑补过程"的推理方法,并构建了相应的评测基准和模型。
研究痛点:现有研究不足 / 要解决的具体问题
现有VLMs擅长描述"图中有什么",但难以从单一观察中推断"任务完成了多少"。现有方法要么依赖特定任务回归模型,要么通过排序等代理任务间接推断,无法让模型具备通用的进度估算能力。具体痛点包括:对演示形式(视觉/文本)和视角变化敏感,且无法处理无法回答的情况。
核心方法:关键技术、模型或研究设计(简要)
提出了一种"分阶段推理"范式:首先通过**情景检索(Episodic Retrieval)找到演示中最接近的步骤作为锚点,再通过心智模拟(Mental Simulation)**推断从锚点到当前状态的进展。基于此开发了PROGRESSLM模型,并构建了PROGRESS-BENCH评测集。
深入了解部分
作者想要表达什么
作者认为,任务进度估计不应是简单的视觉匹配,而应是一种包含长视野、动态推理的能力。现有的VLMs在这一能力上表现不佳,通过模仿人类的两阶段推理过程(先定位再推断),可以显著提升模型在进度估计、视角变化鲁棒性以及不确定性识别方面的能力。
相比前人创新在哪里
- 任务定义创新:将进度估计定义为从单一观察中进行的推理任务,而非多帧排序或回归。
- 方法论创新:引入了"情景检索+心智模拟"的两阶段结构化推理模式,区别于传统的直接预测。
- 评测基准:构建了PROGRESS-BENCH,专门针对演示模态、视角对应关系和可回答性进行了控制变量评测。
解决方法/算法的通俗解释
想象你在看一个做菜视频的截图,要估计进度。
- 第一阶段(找参照):你先在脑海里快速翻阅菜谱步骤图,找到一张和截图最像的图(比如第3步:正在切菜)。
- 第二阶段(脑补过程):你对比截图和第3步图,发现截图里的菜已经切了一半,而第3步是刚开始切。于是你推断:任务进度应该比第3步略快一点,大概是46%。
解决方法的具体做法
- 构建基准:使用RoboMind数据集构建PROGRESS-BENCH,包含视觉/文本演示、同视角/跨视角观察以及可回答/不可回答样本。
- 模型训练 :
- SFT阶段:构建PROGRESSLM-25K-CoT数据,强制模型学习"检索-推理-评分"的思维链格式。
- RL阶段:使用GRPO算法进行强化学习,奖励结构化输出、准确的参考检索和精确的进度评分。
- 推理过程:模型先输出检索到的参考步骤,再基于此输出推理过程和最终分数。
基于前人的哪些方法
基于VLMs(如Qwen2.5-VL)的基础视觉语言理解能力,以及人类认知心理学中的"情景模拟"理论(Schacter et al., 2008)。同时利用了思维链和GRPO技术来优化推理过程。
实验设置、数据、评估方式、结论
- 数据:PROGRESS-BENCH包含约3325个样本;训练数据PROGRESSLM-45K包含25K SFT样本和20K RL样本。
- 模型:评测了14个VLMs(包括GPT-5, Qwen系列, InternVL系列等)。
- 评估:归一化分数误差(NSE)、进度秩相关系数(PRC)、可回答错误拒绝率(AFRR)、不可回答检测准确率(UDA)。
- 结论 :
- 大多数现有VLMs在进度估计上表现不佳,且对演示形式敏感。
- 无训练的推理提示(Prompting)仅对大模型有微弱帮助。
- 经过显式训练的PROGRESSLM-3B模型在小参数规模下实现了显著提升,性能甚至媲美或超越GPT-5,证明了该推理范式的有效性。
提到的同类工作
- Task-specific regression models (Yang et al., 2024; Chen et al., 2025)
- Shuffle-and-rank / Pairwise comparison methods (Ma et al., 2024b; Zhai et al., 2025)
- Cognitive theories of mental simulation (Schacter et al., 2008)
和本文相关性最高的3个文献
- Schacter et al., 2008 (Episodic simulation of future events): 本文提出的"情景检索+心智模拟"两阶段范式直接源于此文献中关于人类认知的心理学理论。
- Ma et al., 2024b (Shuffle-and-rank): 代表了现有的将进度估计转化为排序问题的间接方法,是本文试图区别和超越的现有技术路线之一。
- Wu et al., 2025b (RoboMind): 本文构建评测基准和训练数据所基于的底层机器人操作数据集,提供了任务演示和观察的原始素材。