CVPR 2026|VisRes Bench:视觉语言模型视觉推理能力评估

文章目录

一、论文信息

  • 题目:VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs
  • 作者:Brigitta Malagurski T¨ortei1, Yasser Dahou...
  • 单位:Technology Innovation Institute, Abu Dhabi, UAE;Tuebingen AI Center/University of Tuebingen
  • 期刊:CVPR
  • 代码链接:https://visres-bench.github.io

二、论文摘要

视觉 - 语言模型在视觉问答、图像字幕等任务 上已取得显著进展,但这类模型究竟是在执行真正的视觉推理,还是仅依赖语言先验完成任务,目前仍不明确。

针对这一问题,本文提出 VisRes Bench 基准,用于在无上下文语言监督的自然场景下研究视觉推理能力。基准按照三层复杂度分析模型行为,清晰揭示了模型在感知与关系视觉推理能力上的局限:

  • Level 1:测试模糊、纹理变化、遮挡、旋转等扰动下的感知补全与全局图像匹配能力;
  • Level 2:测试基于颜色、数量、朝向等单一属性的规则化推理;
  • Level 3:测试需要整合多个视觉属性的组合式推理。

超过 19000 张受控任务图像 上的实验表明,即便最先进的 VLM,在细微的感知扰动下表现也接近随机水平,说明模型在模式识别之外的抽象能力十分有限 。VisRes 为多模态领域推进抽象视觉推理研究提供了一套统一的评估与诊断框架。


三、论文创新点

  • 首个覆盖 "感知 - 推理" 完整连续体的层级化基准

    依据认知神经科学的感知 - 概念层级递进规律,首次将视觉推理拆解为感知接地、单属性规则、多属性组合三个递进层级,可系统性定位模型失效发生在视觉处理的哪一阶段,而非仅给出整体准确率。

  • 纯视觉任务设计,排除语言先验干扰

    全部任务采用图像四选一的形式,最小化文本提示的依赖,避免 VLM 借助语言常识、文本捷径 "作弊",真正衡量模型的原生视觉推理能力,揭示了过往 VLM 推理表现被语言能力高估的核心问题。

  • 真实图像 + 结构化推理的融合设计

    区别于 CLEVR、RAVEN 等主流合成推理数据集,VisRes 全部采用真实世界图像构建 Raven 式推理网格,既保留了推理任务的可控性,又提升了结果向真实场景的迁移性,填补了自然图像下结构化视觉推理评估的空白。

  • 多维度失效模式诊断

    不局限于模型排名,而是通过分辨率消融、单属性识别测试、纯文本推理对照、视觉编码器单独测试等一系列实验,精准定位出 "空间属性感知缺陷、视觉特征提取不足、视 - 符转换鸿沟" 三大核心瓶颈,为后续模型改进提供了明确方向。


四、论文动机

现有视觉语言模型在视觉问答、图像字幕等文本引导任务中表现亮眼,但这种能力很大程度依赖语言先验而非真正的视觉理解,移除语言指导后,连遮挡补全、属性判断这类基础视觉任务都会失效,存在明显的 "推理假象"。

同时视觉推理是从感知接地到高阶推理的层级递进过程,底层感知缺陷会向上传导导致高阶推理失效,而现有推理基准要么是合成数据集、真实场景迁移性差,要么依赖语言提示、仅覆盖单一推理层级,无法从感知到推理全链路定位模型的能力短板,因此亟需一套纯视觉、分层级的评估基准,来真实验证模型的视觉推理水平,精准定位故障环节,为后续模型架构的优化迭代提供明确方向。


五、方法

VisRes 包含 19000 个评估样本,全部采用四选一视觉选择题形式,共分为三个层级,任务难度与推理要求逐级提升。

1.任务层级与设计

  • Level 1:感知补全任务

    核心考察低阶视觉表征的鲁棒性,分为两类子任务:

    • 局部补丁补全:在图像中遮挡一块 80×80 像素的区域,要求从 4 个候选补丁中选出正确补全项。任务加入模糊、亮度变化、旋转、边缘提取、朝向变化共 5 种视觉扰动,干扰项采用随机采样和 DINOv2 特征相似采样两种策略生成。
    • 全局遮挡补全:用方形遮挡块覆盖图像 50% 或 80% 的区域,要求从 4 个全局候选图中选出原图。干扰项在布局、内容上与原图高度相似,仅存在细微空间错位,模拟人类的非模态补全能力。
  • Level 2:单属性规则推理

    采用 3×3 的 Raven 式网格,缺失格固定在中心位置,仅针对颜色、数量、朝向中的一个属性施加行级规则,其余属性随机变化。共 12 个子任务,规则类型包括:

    • 均匀模式:每行内目标属性值完全一致;
    • 分布模式:每行内属性为 "3 个不同值" 或 "2 个相同 + 1 个不同" 的分布;
    • 递进模式:物体数量呈单调递增 / 递减序列;
    • 算术运算:第三格为前两格数量的和、差、最大值或最小值。
  • Level 3:多属性组合推理

    要求同时对颜色、数量、朝向、物体类别中的多个属性进行联合推理,共 6 个子任务,分为三类逻辑结构:

    • 耦合属性规则:属性间存在确定性映射(如特定颜色对应固定数量);
    • 独立多规则组合:多个属性各自遵循独立的行级规则,需同时满足;
    • 空间组合任务 :属性沿螺旋路径按规律变化,需结合空间位置推理。
      该层级缺失格位置不固定,避免模型依赖位置捷径答题。

2.数据构建与标注

Level 1 数据来自谷歌街景与公开网络图像,经中心裁剪统一尺寸,过滤有害内容。

Level 2 与 Level 3 采用半自动化标注流水线:颜色、数量先通过爬取关键词获得初始标签,再分别用 GPT-5、Molmo 计数模型验证,保留标注一致的图像;朝向属性人工标注 1 万张图像,划分为 9 类朝向。最终确保每张图像至少包含 2 种标注属性,用于组合生成推理网格。


六、实验分析

1.实验设置

评测模型:覆盖闭源模型 (GPT-4o、GPT-5、Gemini-2.5)与开源模型 (Qwen2.5-VL、Qwen3-VL 系列、InternVL3.5、GLM-4.5V、Kimi-VL、MiMo-VL 等)。

提示词设置:分为通用提示(无属性引导)引导提示(指明关注的属性与规则类型) ,主实验采用引导提示并开启思考模式。

评价指标:任务准确率,随机基线为 25%。

2.主实验结果

  • Level 1(感知补全)

    整体性能偏低 ,多数子任务接近随机水平;旋转扰动、50% 全局遮挡任务表现相对最好(顶尖模型约 35%~57%),边缘提取、位置匹配任务表现最差。

    闭源与开源模型差距较小,说明感知任务对模型规模的区分度有限。

  • Level 2(单属性推理)

    性能呈现显著的属性差异 :颜色推理表现最优,顶尖模型准确率可达 96%-97%;数量推理中等,顶尖模型 77%~90%;朝向推理最差,所有模型均在 30% 以下,接近随机水平。

    算术类规则的准确率比简单递进规则低 10~15 个百分点。

    闭源模型优势显著,开源模型中大模型表现明显优于小模型,模型容量与单属性推理能力正相关。

  • Level 3(多属性组合推理)

    整体性能较 Level 2 普遍下降 ,验证了组合推理的难度增量。

    独立多规则任务表现优于耦合属性任务 ;包含空间螺旋结构的任务中,带数量属性的螺旋任务表现相对更好,带朝向属性的螺旋任务准确率最低。

    闭源与开源模型的差距大幅缩小,说明组合推理是当前所有模型的共同短板

3.深度分析实验

(1)人类基线

5 名人类受试者在全任务上平均准确率达 91%,遮挡、位置类任务接近满分,模糊、边缘条件下略有下降,证明任务本身对人类具备可解性,同时凸显了模型与人类的巨大能力鸿沟。

(2)微调实验

用 Qwen2.5-VL-3B 在 Level 1 任务上进行监督微调,平均准确率从 24.5% 提升至 43.7%,旋转与全局遮挡任务提升最明显。但微调后性能仍远低于人类基线,说明感知缺陷并非单纯由预训练数据不足导致

(3)思考模式的影响

开启思考模式(Chain-of-Thought)对所有层级均有提升,其中开源模型提升最显著 ------ 关闭思考模式时开源模型接近随机水平,开启后出现明确性能增益;闭源模型本身基础性能更高,思考模式带来的提升幅度相对更小。

(4)分辨率消融

输入分辨率从 512×512 提升至 2048×2048,三个层级的准确率均持续上升,Level 1 感知任务与 Level 3 组合任务提升幅度最大。但即便在最高分辨率下,整体性能仍然偏低,说明分辨率是限制因素但非核心瓶颈。

(5)失败根源定位

  • 感知接地测试:单独测试单属性识别能力,GPT-4o 颜色识别准确率 84.6%、数量 72.4%,但朝向仅 39.8%,证明空间几何属性的感知提取是明确短板。
  • 纯文本推理对照:将推理网格全部转为文本描述,GPT-5 在 Level 2 准确率达 85%,Level 3 达 66%,远高于视觉输入下的表现。
  • 核心结论:模型的逻辑推理能力本身是完备的,视觉推理失败的核心瓶颈是视觉特征到符号语义的转换鸿沟,同时叠加了空间属性感知缺陷、低分辨率下特征提取不足两个次要问题。
    (6)纯视觉编码器测试

    用 MAE(掩码自编码器)单独测试 Level 1 补丁补全任务,发现补丁尺寸越小准确率越高,大尺寸补丁下仍高于随机水平,说明纯视觉编码器本身具备基础的空间补全能力,但无法支撑高阶推理。

七.结论

当前主流视觉语言模型的视觉推理能力被严重高估 ,它们在常规任务中的优异表现大多依赖语言先验 ,移除语言引导后,在绝大多数纯视觉推理任务上表现接近随机水平。视觉推理存在层级传导效应,底层感知缺陷尤其是空间朝向识别能力不足,会向上制约单属性规则与多属性组合推理的效果。模型的核心瓶颈并非逻辑推理能力不足 ------ 换成纯文本形式的同类推理任务表现优异,真正的短板是无法从视觉输入中有效提取结构化符号信息 ;仅靠监督微调只能带来小幅提升,无法弥合与人类的差距,说明问题根源不只是数据接触不足,更是架构层面缺乏感知与抽象的深度整合机制。VisRes Bench 提供了可分层诊断的评估框架,能为后续视觉接地、跨模态对齐及抽象推理架构的研究提供量化指引。


八.个人声明

本文旨在分享作者对原论文的学习理解与心得体会。受限于个人知识水平和认知能力,文中对原论文的解读可能仍有不够完善之处,具体内容以原论文为准。本文仅用于学术交流与知识传播,所有内容均由作者独立整理。

如文中引用的文字、图片或其他素材在版权或相关事宜上存在争议,欢迎及时联系作者,作者将第一时间予以回复并妥善处理。

相关推荐
网教盟人才服务平台1 小时前
第223期方班学术研讨厅成功举办
人工智能
lauo1 小时前
ibbot手机:从赛博攻防到Token经济的AI终端革命
人工智能·智能手机
私人珍藏库2 小时前
【Android】BotHub-多模型AI机器人聚合库-内置免费模型
android·人工智能·智能手机·app·工具·多功能
老马聊技术2 小时前
AI对话功能之SpringBoot整合Vue3
vue.js·人工智能·spring boot·后端
阿寻寻2 小时前
【人工智能学习260612-软件测试篇】小工具实现 [特殊字符] Prompt工程 + RAG思路 + API调用 + 自动化测试
人工智能·功能测试·学习·prompt
甲维斯2 小时前
测一波Kimi K2.7,消耗一周配额!
前端·人工智能·游戏开发
石山代码2 小时前
给照片装上 AI 引擎:ACDSee 2025 安装详细步骤
人工智能
chase_my_dream2 小时前
A-LOAM中scanRegistration.cpp详细讲解
c++·人工智能·自动驾驶
ai_xiaogui2 小时前
AI Starter全面开源在即!PanelAI测试版即将上线,客户端+后端全开源,本地AI一键部署神器
人工智能·panelai测试版上线·本地ai一键部署系统·客户端后端开源·ai starter全面开源·跨平台ai模型管理工具·ai starter开源