Evaluating Object Hallucination in Large Vision-Language Models

paper: emnlp2023

2305.10355

code:

https://github.com/RUCAIBox/POPE

1. 研究动机：大模型的幻觉反而更严重？

现象发现： 研究人员首先使用传统的 CHAIR（一种通过解析模型生成的文本来检查是否包含多余物体的指标）测试了当时主流的 LVLMs（如 LLaVA、MiniGPT-4、mPLUG-Owl 等）。结果令人惊讶：这些基于大语言模型的大模型，其物体幻觉问题甚至比传统的小型视觉-语言模型（如 OSCAR、BLIP）还要严重得多。
传统评估指标的缺陷： 研究发现，传统的 CHAIR 指标非常不稳定。它对提示词（Prompt）和生成文本的长度极其敏感，且依赖人工设计的复杂解析规则，很容易发生误判。因此，学术界急需一种更稳定、更公平的评估方法。

2. 深度剖析：大模型为什么会"无中生有"？

论文并没有止步于"发现幻觉"，而是深入探究了大模型到底喜欢在什么情况下产生幻觉。他们得出了两个极为重要的结论：大模型的幻觉高度受其微调数据集（如 MSCOCO）中的统计学偏差影响。

高频物体偏差（Popular Bias）： 模型特别容易幻觉出在训练集中出现频率极高的物体。例如，图里根本没有人，但模型往往会由于"人（person）"在数据集中太常见而盲目生成它。
共现偏差（Co-occurrence Bias）： 模型很容易被图片中真实存在的物体"带偏"，进而幻觉出与它经常成对出现的其他物体。例如，图片里有一张"餐桌（dining table）"，模型就会顺理成章地幻觉出图片中其实并不存在的"椅子（chair）"或"杯子（cup）"。

3. 破局之法：提出 POPE 评估基准

基于上述痛点和发现，作者摒弃了让模型自由生成长文本再进行解析的老路，提出了一种**"轮询式物体探测评估"（Polling-based Object Probing Evaluation, 简称 POPE）**方法。

POPE 的核心思想是把幻觉评估变成简单的"是非题（Yes/No）"（例如："图片里有狗吗？"），并基于模型容易踩坑的统计偏差，设计了三种不同难度的负样本（假物体）提问策略：

Random（随机）： 随机问一个图片中不存在的物体（最简单）。
Popular（高频）： 专门挑数据集中最常见、但当前图片中没有的物体来问大模型，诱导它犯错。
Adversarial（对抗）： 最阴险的一种。专门挑那些和图片中真实存在的物体"高度共现"，但偏偏这次没出现的物体来问模型（比如图里有键盘，专门问有没有鼠标）。

4. 实验结果与有趣的洞察

作者利用 POPE 对主流大模型进行了"大考"，得到了几个非常有趣的洞察：

大模型变成了"Yes Man（老好人）"： 实验发现，像 LLaVA、mPLUG-Owl 和 MultiModal-GPT 这样的模型，在面对 POPE 的提问时过度自信，几乎 99% 的情况下都会回答"Yes"。这就导致它们在回答真正没有该物体的负面问题时，准确率暴跌。
难度梯度的有效性： 模型在 Random -> Popular -> Adversarial 这三种设置下的 F1 得分呈现稳定下降的趋势。这完美印证了作者前文的假设：模型在面对高频词和共现词时，最容易被诱导产生幻觉。
POPE 的高扩展性与稳定性： 与传统指标不同，POPE 对提示词的变化非常稳定。此外，如果结合自动化分割工具（如 SEEM），POPE 甚至可以在完全没有人工标注的数据集上"零成本"构建幻觉测试集，具有极强的扩展性。
幻觉率与整体能力的背离： 论文还发现，幻觉较少（POPE 得分高）的模型，其在传统的 VQA（视觉问答）任务上的得分不一定最高。这说明在实际应用中，抑制幻觉和提升模型解决复杂问题的能力需要进行平衡和双向评估。

总结

如果说 《DHCP》 是一篇"教你如何造测谎仪"的实战手册，那么这篇 《POPE》 就是"分析嫌疑人犯罪心理，并为其量身定制一套笔录审讯标准"的犯罪心理学教科书。正是因为 POPE 揭示了幻觉的成因并提供了标准的"Yes/No"测试集，后续如 DHCP 等机制视角的防幻觉研究才有了稳固的实验基础。

**POPE（Polling-based Object Probing Evaluation，轮询式物体探测评估）**是一个专门针对多模态大模型（LVLM）物体幻觉设计的评估基准。它的核心逻辑非常直接：摒弃让模型自由生成长篇大论的传统做法，把幻觉评估转化为做最简单的"是非题（Yes/No）"。

以前的方法（如 CHAIR 指标）需要解析模型生成的长描述，这极度依赖复杂的人工提取规则，且非常容易受到提示词变化和句子长度的干扰。为了解决这些痛点，POPE 设定了以下标准化的"审讯"流程：

1. 题目构建与 1:1 平衡机制

对于每一张图片，POPE 都会套用极其简单的固定句式向模型提问，例如："图片里有 $某物体$ 吗？"（Is there a/an in the image?） 。为了防止模型投机取巧（比如为了迎合人类全部回答"Yes"），POPE 严格设定了 1:1 的正负样本比例：

正样本（答案为 Yes）：直接从图片真实的标注（或 SEEM 等自动分割工具提取的特征）中获取真实存在的物体。
负样本（答案为 No） ：提取图片中根本不存在的物体来反问模型。如何挑选这些不存在的物体，就是 POPE 测试大模型底线的核心所在。

2. 三种不同难度的"陷阱"策略（负采样）

为了诊断出模型产生幻觉的"病因"，POPE 针对答案为"No"的负样本设计了三种不同难度的采样策略，一步步诱导模型犯错：

随机策略（Random Sampling）：最基础的测试。 系统完全随机地从物体库中挑选一个图片里没有的物体来提问。
高频策略（Popular Sampling）：针对"流行度偏差"。 专门挑选在整个训练数据集中出现频率最高，但在当前图片里却没有的物体来提问。因为大模型在训练时看这些高频物体（如"人"、"车"）看得最多，很容易产生"肌肉记忆"从而闭着眼睛回答"Yes"。
对抗策略（Adversarial Sampling）：最阴险的测试，针对"共现偏差"。 专门挑选那些和图片中真实存在的物体**"经常成对出现"**、但偏偏这张图里没有的物体来提问。比如，如果图片里有一张"餐桌"，它就会特意问"图片里有椅子吗？"，以此来测试模型是真的看见了，还是仅仅凭借常识关联在"瞎猜"。

3. 评估与打分

由于所有问题的标准答案只有确定的"Yes"或"No"，这完美避开了复杂的文本解析。POPE 使用经典的分类指标来打分，包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）以及 F1 分数（F1 Score），其中 F1 分数被作为评估模型幻觉程度的最主要指标。

总结来说，POPE 就像是一套标准化的"视力测试表"。它通过极其稳定的"Yes/No"提问方式和精心设计的陷阱，精准且公平地测出了大模型到底是真的拥有了视觉理解能力，还是仅仅在根据语言数据的统计规律"胡说八道"。