【论文阅读】PROGRESSLM: 迈向VLM的Progress推理

快速了解部分

基础信息(英文):

1.题目: PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

2.时间: 2026.01

3.机构: Northwestern University, Arcadia University

4.3个英文关键词: Progress Reasoning, Vision-Language Models (VLMs), Robotic Manipulation

1句话通俗总结本文干了什么事情

本文旨在解决视觉语言模型(VLMs)难以仅凭一张图片推断任务完成进度的问题,提出了一种模仿人类"找参照+脑补过程"的推理方法,并构建了相应的评测基准和模型。

研究痛点:现有研究不足 / 要解决的具体问题

现有VLMs擅长描述"图中有什么",但难以从单一观察中推断"任务完成了多少"。现有方法要么依赖特定任务回归模型,要么通过排序等代理任务间接推断,无法让模型具备通用的进度估算能力。具体痛点包括:对演示形式(视觉/文本)和视角变化敏感,且无法处理无法回答的情况。

核心方法:关键技术、模型或研究设计(简要)

提出了一种"分阶段推理"范式:首先通过**情景检索(Episodic Retrieval)找到演示中最接近的步骤作为锚点,再通过心智模拟(Mental Simulation)**推断从锚点到当前状态的进展。基于此开发了PROGRESSLM模型,并构建了PROGRESS-BENCH评测集。

深入了解部分

作者想要表达什么

作者认为,任务进度估计不应是简单的视觉匹配,而应是一种包含长视野、动态推理的能力。现有的VLMs在这一能力上表现不佳,通过模仿人类的两阶段推理过程(先定位再推断),可以显著提升模型在进度估计、视角变化鲁棒性以及不确定性识别方面的能力。

相比前人创新在哪里

  1. 任务定义创新:将进度估计定义为从单一观察中进行的推理任务,而非多帧排序或回归。
  2. 方法论创新:引入了"情景检索+心智模拟"的两阶段结构化推理模式,区别于传统的直接预测。
  3. 评测基准:构建了PROGRESS-BENCH,专门针对演示模态、视角对应关系和可回答性进行了控制变量评测。

解决方法/算法的通俗解释

想象你在看一个做菜视频的截图,要估计进度。

  1. 第一阶段(找参照):你先在脑海里快速翻阅菜谱步骤图,找到一张和截图最像的图(比如第3步:正在切菜)。
  2. 第二阶段(脑补过程):你对比截图和第3步图,发现截图里的菜已经切了一半,而第3步是刚开始切。于是你推断:任务进度应该比第3步略快一点,大概是46%。

解决方法的具体做法

  1. 构建基准:使用RoboMind数据集构建PROGRESS-BENCH,包含视觉/文本演示、同视角/跨视角观察以及可回答/不可回答样本。
  2. 模型训练
    • SFT阶段:构建PROGRESSLM-25K-CoT数据,强制模型学习"检索-推理-评分"的思维链格式。
    • RL阶段:使用GRPO算法进行强化学习,奖励结构化输出、准确的参考检索和精确的进度评分。
  3. 推理过程:模型先输出检索到的参考步骤,再基于此输出推理过程和最终分数。

基于前人的哪些方法

基于VLMs(如Qwen2.5-VL)的基础视觉语言理解能力,以及人类认知心理学中的"情景模拟"理论(Schacter et al., 2008)。同时利用了思维链和GRPO技术来优化推理过程。

实验设置、数据、评估方式、结论

  • 数据:PROGRESS-BENCH包含约3325个样本;训练数据PROGRESSLM-45K包含25K SFT样本和20K RL样本。
  • 模型:评测了14个VLMs(包括GPT-5, Qwen系列, InternVL系列等)。
  • 评估:归一化分数误差(NSE)、进度秩相关系数(PRC)、可回答错误拒绝率(AFRR)、不可回答检测准确率(UDA)。
  • 结论
    • 大多数现有VLMs在进度估计上表现不佳,且对演示形式敏感。
    • 无训练的推理提示(Prompting)仅对大模型有微弱帮助。
    • 经过显式训练的PROGRESSLM-3B模型在小参数规模下实现了显著提升,性能甚至媲美或超越GPT-5,证明了该推理范式的有效性。

提到的同类工作

  • Task-specific regression models (Yang et al., 2024; Chen et al., 2025)
  • Shuffle-and-rank / Pairwise comparison methods (Ma et al., 2024b; Zhai et al., 2025)
  • Cognitive theories of mental simulation (Schacter et al., 2008)

和本文相关性最高的3个文献

  1. Schacter et al., 2008 (Episodic simulation of future events): 本文提出的"情景检索+心智模拟"两阶段范式直接源于此文献中关于人类认知的心理学理论。
  2. Ma et al., 2024b (Shuffle-and-rank): 代表了现有的将进度估计转化为排序问题的间接方法,是本文试图区别和超越的现有技术路线之一。
  3. Wu et al., 2025b (RoboMind): 本文构建评测基准和训练数据所基于的底层机器人操作数据集,提供了任务演示和观察的原始素材。
相关推荐
小明_GLC2 小时前
ms-Mamba: Multi-scale Mamba for Time-Series Forecasting 时序论文阅读
论文阅读
传说故事3 小时前
【论文自动阅读】未来光流预测提升机器人控制与视频生成
人工智能·机器人·具身智能
传说故事3 小时前
【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化
论文阅读·学习·机器人·具身智能
西柚小萌新4 小时前
【论文阅读】--VICoT-Agent:用于可解释多模态推理和可扩展遥感分析的视觉交错思维链框架
论文阅读
传说故事5 小时前
【论文阅读】SILENTDRIFT利用action chunking对VLA进行隐蔽后门攻击
论文阅读·具身智能
人工智能培训5 小时前
如何将模拟器中的技能有效迁移到物理世界?
人工智能·大模型·知识图谱·具身智能·人工智能 培训·企业人工智能培训
Learn Beyond Limits1 天前
文献阅读:A Probabilistic U-Net for Segmentation of Ambiguous Images
论文阅读·人工智能·深度学习·算法·机器学习·计算机视觉·ai
醒了就刷牙1 天前
MovieNet
论文阅读·人工智能·论文笔记
传说故事1 天前
【论文自动阅读】RoboBrain 2.0
人工智能·具身智能