Evaluating Object Hallucination in Large Vision-Language Models

paper: emnlp2023

2305.10355

code:

https://github.com/RUCAIBox/POPE

1. 研究动机:大模型的幻觉反而更严重?

  • 现象发现: 研究人员首先使用传统的 CHAIR(一种通过解析模型生成的文本来检查是否包含多余物体的指标)测试了当时主流的 LVLMs(如 LLaVA、MiniGPT-4、mPLUG-Owl 等)。结果令人惊讶:这些基于大语言模型的大模型,其物体幻觉问题甚至比传统的小型视觉-语言模型(如 OSCAR、BLIP)还要严重得多
  • 传统评估指标的缺陷: 研究发现,传统的 CHAIR 指标非常不稳定。它对提示词(Prompt)和生成文本的长度极其敏感,且依赖人工设计的复杂解析规则,很容易发生误判。因此,学术界急需一种更稳定、更公平的评估方法。

2. 深度剖析:大模型为什么会"无中生有"?

论文并没有止步于"发现幻觉",而是深入探究了大模型到底喜欢在什么情况下产生幻觉。他们得出了两个极为重要的结论:大模型的幻觉高度受其微调数据集(如 MSCOCO)中的统计学偏差影响。

  • 高频物体偏差(Popular Bias): 模型特别容易幻觉出在训练集中出现频率极高的物体。例如,图里根本没有人,但模型往往会由于"人(person)"在数据集中太常见而盲目生成它。
  • 共现偏差(Co-occurrence Bias): 模型很容易被图片中真实存在的物体"带偏",进而幻觉出与它经常成对出现的其他物体。例如,图片里有一张"餐桌(dining table)",模型就会顺理成章地幻觉出图片中其实并不存在的"椅子(chair)"或"杯子(cup)"。

3. 破局之法:提出 POPE 评估基准

基于上述痛点和发现,作者摒弃了让模型自由生成长文本再进行解析的老路,提出了一种**"轮询式物体探测评估"(Polling-based Object Probing Evaluation, 简称 POPE)**方法。

POPE 的核心思想是把幻觉评估变成简单的"是非题(Yes/No)"(例如:"图片里有狗吗?"),并基于模型容易踩坑的统计偏差,设计了三种不同难度的负样本(假物体)提问策略:

  1. Random(随机): 随机问一个图片中不存在的物体(最简单)。
  2. Popular(高频): 专门挑数据集中最常见、但当前图片中没有的物体来问大模型,诱导它犯错。
  3. Adversarial(对抗): 最阴险的一种。专门挑那些和图片中真实存在的物体"高度共现",但偏偏这次没出现的物体来问模型(比如图里有键盘,专门问有没有鼠标)。

4. 实验结果与有趣的洞察

作者利用 POPE 对主流大模型进行了"大考",得到了几个非常有趣的洞察:

  • 大模型变成了"Yes Man(老好人)": 实验发现,像 LLaVA、mPLUG-Owl 和 MultiModal-GPT 这样的模型,在面对 POPE 的提问时过度自信,几乎 99% 的情况下都会回答"Yes"。这就导致它们在回答真正没有该物体的负面问题时,准确率暴跌。
  • 难度梯度的有效性: 模型在 Random -> Popular -> Adversarial 这三种设置下的 F1 得分呈现稳定下降的趋势。这完美印证了作者前文的假设:模型在面对高频词和共现词时,最容易被诱导产生幻觉
  • POPE 的高扩展性与稳定性: 与传统指标不同,POPE 对提示词的变化非常稳定。此外,如果结合自动化分割工具(如 SEEM),POPE 甚至可以在完全没有人工标注的数据集上"零成本"构建幻觉测试集,具有极强的扩展性。
  • 幻觉率与整体能力的背离: 论文还发现,幻觉较少(POPE 得分高)的模型,其在传统的 VQA(视觉问答)任务上的得分不一定最高。这说明在实际应用中,抑制幻觉和提升模型解决复杂问题的能力需要进行平衡和双向评估。

总结

如果说 《DHCP》 是一篇"教你如何造测谎仪"的实战手册,那么这篇 《POPE》 就是"分析嫌疑人犯罪心理,并为其量身定制一套笔录审讯标准"的犯罪心理学教科书。正是因为 POPE 揭示了幻觉的成因并提供了标准的"Yes/No"测试集,后续如 DHCP 等机制视角的防幻觉研究才有了稳固的实验基础。

**POPE(Polling-based Object Probing Evaluation,轮询式物体探测评估)**是一个专门针对多模态大模型(LVLM)物体幻觉设计的评估基准。它的核心逻辑非常直接:摒弃让模型自由生成长篇大论的传统做法,把幻觉评估转化为做最简单的"是非题(Yes/No)"

以前的方法(如 CHAIR 指标)需要解析模型生成的长描述,这极度依赖复杂的人工提取规则,且非常容易受到提示词变化和句子长度的干扰。为了解决这些痛点,POPE 设定了以下标准化的"审讯"流程:

1. 题目构建与 1:1 平衡机制

对于每一张图片,POPE 都会套用极其简单的固定句式向模型提问,例如:"图片里有[某物体]吗?"(Is there a/an in the image?) 。 为了防止模型投机取巧(比如为了迎合人类全部回答"Yes"),POPE 严格设定了 1:1 的正负样本比例

  • 正样本(答案为 Yes):直接从图片真实的标注(或 SEEM 等自动分割工具提取的特征)中获取真实存在的物体。
  • 负样本(答案为 No) :提取图片中根本不存在的物体来反问模型。如何挑选这些不存在的物体,就是 POPE 测试大模型底线的核心所在。

2. 三种不同难度的"陷阱"策略(负采样)

为了诊断出模型产生幻觉的"病因",POPE 针对答案为"No"的负样本设计了三种不同难度的采样策略,一步步诱导模型犯错:

  • 随机策略(Random Sampling):最基础的测试。 系统完全随机地从物体库中挑选一个图片里没有的物体来提问。
  • 高频策略(Popular Sampling):针对"流行度偏差"。 专门挑选在整个训练数据集中出现频率最高,但在当前图片里却没有的物体来提问。因为大模型在训练时看这些高频物体(如"人"、"车")看得最多,很容易产生"肌肉记忆"从而闭着眼睛回答"Yes"。
  • 对抗策略(Adversarial Sampling):最阴险的测试,针对"共现偏差"。 专门挑选那些和图片中真实存在的物体**"经常成对出现"**、但偏偏这张图里没有的物体来提问。比如,如果图片里有一张"餐桌",它就会特意问"图片里有椅子吗?",以此来测试模型是真的看见了,还是仅仅凭借常识关联在"瞎猜"。

3. 评估与打分

由于所有问题的标准答案只有确定的"Yes"或"No",这完美避开了复杂的文本解析。POPE 使用经典的分类指标来打分,包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及 F1 分数(F1 Score),其中 F1 分数被作为评估模型幻觉程度的最主要指标。

总结来说,POPE 就像是一套标准化的"视力测试表"。它通过极其稳定的"Yes/No"提问方式和精心设计的陷阱,精准且公平地测出了大模型到底是真的拥有了视觉理解能力,还是仅仅在根据语言数据的统计规律"胡说八道"。

相关推荐
NiceCloud喜云1 小时前
Claude 进入法律行业:AI 正在重构专业服务工作流
人工智能·重构
橘白3161 小时前
rl笔记(一):策略梯度更新算法推导
人工智能·算法·机器人·强化学习
深度智能Ai1 小时前
云声配音免费AI语音合成,300+真人音色、40+语种全开
人工智能·语音合成·免费语音合成·在线语音合成
程序员JerrySUN1 小时前
Jetson边缘嵌入式实战课程第三讲:L4T 与 Jetson 系统架构
linux·服务器·人工智能·安全·unity·系统架构·游戏引擎
qq_411262421 小时前
基于 ESP32-S3 的四博 AI 双目智能音箱方案设计:双目屏、四路触控、姿态感应、震动反馈与 AI 大模型接入
人工智能·microsoft·智能音箱
Coovally AI模型快速验证1 小时前
IJCV 2026|让重复视频片段拥有“唯一”字幕,判别性提示 CDP,检索性能提升 15%
人工智能·计算机视觉·实时音视频
贺子杰1 小时前
潜意识“假推理”:LLM 幻觉的可解释性追踪方案
人工智能·深度学习
zzzzzz3101 小时前
别再用 playwright-stealth 了!CloakBrowser 源码级反检测才是正解
人工智能
小撒的私房菜1 小时前
Day 4:让 Agent 记住你——短期记忆实现
人工智能·后端