【论文阅读】PROGRESSLM: 迈向VLM的Progress推理

快速了解部分

基础信息(英文):

1.题目: PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

2.时间: 2026.01

3.机构: Northwestern University, Arcadia University

4.3个英文关键词: Progress Reasoning, Vision-Language Models (VLMs), Robotic Manipulation

1句话通俗总结本文干了什么事情

本文旨在解决视觉语言模型(VLMs)难以仅凭一张图片推断任务完成进度的问题,提出了一种模仿人类"找参照+脑补过程"的推理方法,并构建了相应的评测基准和模型。

研究痛点:现有研究不足 / 要解决的具体问题

现有VLMs擅长描述"图中有什么",但难以从单一观察中推断"任务完成了多少"。现有方法要么依赖特定任务回归模型,要么通过排序等代理任务间接推断,无法让模型具备通用的进度估算能力。具体痛点包括:对演示形式(视觉/文本)和视角变化敏感,且无法处理无法回答的情况。

核心方法:关键技术、模型或研究设计(简要)

提出了一种"分阶段推理"范式:首先通过**情景检索(Episodic Retrieval)找到演示中最接近的步骤作为锚点,再通过心智模拟(Mental Simulation)**推断从锚点到当前状态的进展。基于此开发了PROGRESSLM模型,并构建了PROGRESS-BENCH评测集。

深入了解部分

作者想要表达什么

作者认为,任务进度估计不应是简单的视觉匹配,而应是一种包含长视野、动态推理的能力。现有的VLMs在这一能力上表现不佳,通过模仿人类的两阶段推理过程(先定位再推断),可以显著提升模型在进度估计、视角变化鲁棒性以及不确定性识别方面的能力。

相比前人创新在哪里

  1. 任务定义创新:将进度估计定义为从单一观察中进行的推理任务,而非多帧排序或回归。
  2. 方法论创新:引入了"情景检索+心智模拟"的两阶段结构化推理模式,区别于传统的直接预测。
  3. 评测基准:构建了PROGRESS-BENCH,专门针对演示模态、视角对应关系和可回答性进行了控制变量评测。

解决方法/算法的通俗解释

想象你在看一个做菜视频的截图,要估计进度。

  1. 第一阶段(找参照):你先在脑海里快速翻阅菜谱步骤图,找到一张和截图最像的图(比如第3步:正在切菜)。
  2. 第二阶段(脑补过程):你对比截图和第3步图,发现截图里的菜已经切了一半,而第3步是刚开始切。于是你推断:任务进度应该比第3步略快一点,大概是46%。

解决方法的具体做法

  1. 构建基准:使用RoboMind数据集构建PROGRESS-BENCH,包含视觉/文本演示、同视角/跨视角观察以及可回答/不可回答样本。
  2. 模型训练
    • SFT阶段:构建PROGRESSLM-25K-CoT数据,强制模型学习"检索-推理-评分"的思维链格式。
    • RL阶段:使用GRPO算法进行强化学习,奖励结构化输出、准确的参考检索和精确的进度评分。
  3. 推理过程:模型先输出检索到的参考步骤,再基于此输出推理过程和最终分数。

基于前人的哪些方法

基于VLMs(如Qwen2.5-VL)的基础视觉语言理解能力,以及人类认知心理学中的"情景模拟"理论(Schacter et al., 2008)。同时利用了思维链和GRPO技术来优化推理过程。

实验设置、数据、评估方式、结论

  • 数据:PROGRESS-BENCH包含约3325个样本;训练数据PROGRESSLM-45K包含25K SFT样本和20K RL样本。
  • 模型:评测了14个VLMs(包括GPT-5, Qwen系列, InternVL系列等)。
  • 评估:归一化分数误差(NSE)、进度秩相关系数(PRC)、可回答错误拒绝率(AFRR)、不可回答检测准确率(UDA)。
  • 结论
    • 大多数现有VLMs在进度估计上表现不佳,且对演示形式敏感。
    • 无训练的推理提示(Prompting)仅对大模型有微弱帮助。
    • 经过显式训练的PROGRESSLM-3B模型在小参数规模下实现了显著提升,性能甚至媲美或超越GPT-5,证明了该推理范式的有效性。

提到的同类工作

  • Task-specific regression models (Yang et al., 2024; Chen et al., 2025)
  • Shuffle-and-rank / Pairwise comparison methods (Ma et al., 2024b; Zhai et al., 2025)
  • Cognitive theories of mental simulation (Schacter et al., 2008)

和本文相关性最高的3个文献

  1. Schacter et al., 2008 (Episodic simulation of future events): 本文提出的"情景检索+心智模拟"两阶段范式直接源于此文献中关于人类认知的心理学理论。
  2. Ma et al., 2024b (Shuffle-and-rank): 代表了现有的将进度估计转化为排序问题的间接方法,是本文试图区别和超越的现有技术路线之一。
  3. Wu et al., 2025b (RoboMind): 本文构建评测基准和训练数据所基于的底层机器人操作数据集,提供了任务演示和观察的原始素材。
相关推荐
min1811234561 天前
小型网站开发简易流程步骤 在线画图工具快速生成开发流程图方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
0x2111 天前
[论文阅读]DeepSeek-V3 Technical Report
论文阅读
SUNNY_SHUN2 天前
VLM走进农田:AgriChat覆盖3000+作物品类,607K农业视觉问答基准开源
论文阅读·人工智能·算法·开源
七元权2 天前
论文阅读-Fast-FoundationStereo
论文阅读
SkyXZ3 天前
RDK-OE-LLM工具链量化SigLip全流程
深度学习·具身智能·rdk s100
feasibility.3 天前
DreamZero技术解析:当世界模型成为机器人“物理大脑”
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
STLearner3 天前
WWW 2026 | 时空数据(Spatial Temporal)论文总结(交通预测,人群移动,轨迹表示,信控等)
大数据·论文阅读·人工智能·深度学习·机器学习·数据挖掘·自动驾驶
STLearner3 天前
WWW 2026 | 时间序列(Time Series)论文总结(预测,生成,插补,分类,异常检测等)
论文阅读·人工智能·深度学习·神经网络·算法·机器学习·数据挖掘
Biomamba生信基地3 天前
视频回放:《PHYTOMEDICINE》一作专访
论文阅读·生物信息学·单细胞测序
锅挤4 天前
来一篇儿:《Boosting Adversarial Attacks with Momentum》
论文阅读·机器学习