【论文阅读】PROGRESSLM: 迈向VLM的Progress推理

快速了解部分

1.题目: PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

2.时间: 2026.01

3.机构: Northwestern University, Arcadia University

4.3个英文关键词: Progress Reasoning, Vision-Language Models (VLMs), Robotic Manipulation

本文旨在解决视觉语言模型（VLMs）难以仅凭一张图片推断任务完成进度的问题，提出了一种模仿人类"找参照+脑补过程"的推理方法，并构建了相应的评测基准和模型。

现有VLMs擅长描述"图中有什么"，但难以从单一观察中推断"任务完成了多少"。现有方法要么依赖特定任务回归模型，要么通过排序等代理任务间接推断，无法让模型具备通用的进度估算能力。具体痛点包括：对演示形式（视觉/文本）和视角变化敏感，且无法处理无法回答的情况。

提出了一种"分阶段推理"范式：首先通过**情景检索（Episodic Retrieval）找到演示中最接近的步骤作为锚点，再通过心智模拟（Mental Simulation）**推断从锚点到当前状态的进展。基于此开发了PROGRESSLM模型，并构建了PROGRESS-BENCH评测集。

作者认为，任务进度估计不应是简单的视觉匹配，而应是一种包含长视野、动态推理的能力。现有的VLMs在这一能力上表现不佳，通过模仿人类的两阶段推理过程（先定位再推断），可以显著提升模型在进度估计、视角变化鲁棒性以及不确定性识别方面的能力。

想象你在看一个做菜视频的截图，要估计进度。

构建基准：使用RoboMind数据集构建PROGRESS-BENCH，包含视觉/文本演示、同视角/跨视角观察以及可回答/不可回答样本。
模型训练 ：
- SFT阶段：构建PROGRESSLM-25K-CoT数据，强制模型学习"检索-推理-评分"的思维链格式。
- RL阶段：使用GRPO算法进行强化学习，奖励结构化输出、准确的参考检索和精确的进度评分。
推理过程：模型先输出检索到的参考步骤，再基于此输出推理过程和最终分数。

基于VLMs（如Qwen2.5-VL）的基础视觉语言理解能力，以及人类认知心理学中的"情景模拟"理论（Schacter et al., 2008）。同时利用了思维链和GRPO技术来优化推理过程。

数据：PROGRESS-BENCH包含约3325个样本；训练数据PROGRESSLM-45K包含25K SFT样本和20K RL样本。
模型：评测了14个VLMs（包括GPT-5, Qwen系列, InternVL系列等）。
评估：归一化分数误差（NSE）、进度秩相关系数（PRC）、可回答错误拒绝率（AFRR）、不可回答检测准确率（UDA）。
结论：
- 大多数现有VLMs在进度估计上表现不佳，且对演示形式敏感。
- 无训练的推理提示（Prompting）仅对大模型有微弱帮助。
- 经过显式训练的PROGRESSLM-3B模型在小参数规模下实现了显著提升，性能甚至媲美或超越GPT-5，证明了该推理范式的有效性。

Task-specific regression models (Yang et al., 2024; Chen et al., 2025)
Shuffle-and-rank / Pairwise comparison methods (Ma et al., 2024b; Zhai et al., 2025)
Cognitive theories of mental simulation (Schacter et al., 2008)

Schacter et al., 2008 (Episodic simulation of future events): 本文提出的"情景检索+心智模拟"两阶段范式直接源于此文献中关于人类认知的心理学理论。
Ma et al., 2024b (Shuffle-and-rank): 代表了现有的将进度估计转化为排序问题的间接方法，是本文试图区别和超越的现有技术路线之一。
Wu et al., 2025b (RoboMind): 本文构建评测基准和训练数据所基于的底层机器人操作数据集，提供了任务演示和观察的原始素材。