【IQA技术专题】基于多模态大模型的IQA Benchmark：Q-BENCH

PixelMind2025-11-13 17:38

基于多模态大模型的IQA Benchmark：Q-BENCH（2024 ICLR）

专题介绍
一、研究背景
[二、Q-Bench 三大评估任务设计](#二、Q-Bench 三大评估任务设计)
- [2.1 低层次视觉感知任务（A1：Perception）](#2.1 低层次视觉感知任务（A1：Perception）)
- [2.2 低层次视觉描述任务（A2：Description）](#2.2 低层次视觉描述任务（A2：Description）)
- [2.3 视觉质量评估任务（A3：Assessment）](#2.3 视觉质量评估任务（A3：Assessment）)
三、实验
- [3.1 低层次感知能力（A1）：整体准确率](#3.1 低层次感知能力（A1）：整体准确率)
- [3.2 低层次描述能力（A2）：总分（3 维度之和）](#3.2 低层次描述能力（A2）：总分（3 维度之和）)
- [3.3 质量评估能力（A3）：平均 SRCC/PLCC](#3.3 质量评估能力（A3）：平均 SRCC/PLCC)
四、总结

本文将围绕《Q-BENCH: A BENCHMARK FOR GENERAL-PURPOSE

FOUNDATION MODELS ON LOW-LEVEL VISION》展开完整解析。

为填补多模态大型语言模型（MLLMs）在低层次视觉感知与理解能力评估上的空白，研究团队提出Q-Bench 基准，从低层次视觉感知、低层次视觉描述、整体视觉质量评估三大维度系统评估 MLLMs 能力：构建含 2,990 张图像的LLVisionQA 数据集评估感知能力（通过问答正确性衡量），创建含 499 张图像及专家标注黄金描述的LLDescribe 数据集并结合 GPT 对比 pipeline 评估描述能力（从完整性、精确性、相关性维度），还设计基于 softmax 的策略让 MLLMs 预测可量化质量分数以评估质量评估能力；实验显示 MLLMs 具备初步低层次视觉技能，但稳定性和精确性不足，其中InternLM-XComposer-VL在多项任务中表现最优，GPT-4V接近初级人类水平但仍落后于资深人类，该基准旨在推动 MLLMs 低层次视觉能力的研究与提升。参考资料如下：

【IQA技术专题】 基于多模态大模型的IQA Benchmark：Q-BENCH

基于多模态大模型的IQA Benchmark：Q-BENCH（2024 ICLR）

【IQA技术专题】基于多模态大模型的IQA Benchmark：Q-BENCH