多模态大模型产生幻觉的直接原因是否是语言先验问题

视觉信息是对的 → 后层被改写 → 幻觉来源于语言先验


Step 1:证明"视觉信息其实是正确的"(排除错误来源)

实验:layer-wise probing(逐层探测)

论文做法:

  • 在每一层的 hidden state 上训练一个 probe classifier

  • 输入形式:

    The image contains <obj>

  • 判断模型是否"认为这个物体存在"

相当于在问每一层:

"你现在觉得这个物体在不在?"


结果:

  • 模型在中间层可以达到 ≈80% 准确率
  • 而且:
    • 前层更准
    • 后层反而变差

结论 1:

模型已经正确看到了图像内容

也就是说:

❌ 幻觉 ≠ 看不见

✅ 幻觉发生在看到之后


Step 2:发现"信息被改写"(关键现象)

实验:tracking logits across layers(跟踪 token 概率)

论文做法:

  • 对每一层都计算:

    p(xt∣x<t)ip(x_t | x_{<t})_ip(xt∣x<t)i

  • 观察:

    • ground-truth token(真实物体)
    • hallucinated token(错误物体)

在不同层的概率变化


关键现象:

✔ 真实 token(例如 umbrella)

  • 在第 18 层:概率很高 ✅
  • 到第 30 层:开始下降 ❌
  • 最后一层:被压下去 ❌

✔ 幻觉 token(例如 bird)

  • 前层:概率很低
  • 后层:突然升高
  • 最后一层:超过真实 token

这是整个论文最关键的观察之一:

真实信息在前层是对的,但被后层"压掉了"

结论 2:

存在一个"后层机制"在主动改写预测结果

但此时还不知道是谁在改写。


Step 3:验证"是谁在改写"(核心因果实验)

这是论文最关键的一步。

实验设计:去掉视觉输入(干预变量)

目标:

判断"幻觉 token 是不是来自语言模型本身"


✔ 构造对照实验:

条件 输入
正常 图像 + 文本
干预 ❌ 无图像 + 文本

✔ 做法:

  • 不输入图像

  • 只保留文本上下文

  • 得到候选 token 集合:

    Vcandidate′V'_{candidate}Vcandidate′


📊关键结果:

幻觉 token(xh)在 Vcandidate′V'_{candidate}Vcandidate′​ 中的出现率:

{91.05%}

逻辑推导(核心)

已知事实:

  1. 前层已经知道真实答案(视觉正确)
  2. 后层压制了真实 token
  3. 幻觉 token 在"无图像时"也会出现(91%)

推理:

如果一个 token:

  • 不依赖图像也会出现
  • 并且在最终层占优

那么它的来源只能是:

语言模型内部知识(language prior)


关键因果结论:

后层并不是"随机出错",而是被语言先验主导

相关推荐
zhangfeng11336 小时前
aclnn 完整含义解析 华为昇腾计算库-神经网络算子API(算子开发) acl / aclnn / aclrt 三者区分
人工智能·深度学习·神经网络
天风之翼6 小时前
RAG 系统深度实战:从朴素检索到 Agentic RAG 的完整演进
人工智能
2603_955279706 小时前
我的AI辅助开发工具链2026版:构建下一代智能编码工作流
人工智能
这张生成的图像能检测吗6 小时前
(论文速读)REF-DDPM:一种新的基于DDPM的不平衡滚动轴承故障诊断数据增强方法
人工智能·计算机视觉·故障诊断·扩散模型
QiLinkOS7 小时前
第三视觉理解徐玉生与他的商业活动(28)
大数据·c++·人工智能·算法·开源协议
2601_951659997 小时前
YOLOv11 改进 - 下采样 轻量化突破:ADown 下采样让 YOLOv11 参量减、精度升
深度学习·yolo·计算机视觉
龙虾PRO7 小时前
民生用能电气化提速:AI 驱动的新型能源体系落地解决方案全景
人工智能·能源
辰尘_星启7 小时前
【三维重建】概述
计算机视觉·机器人·slam·控制·三维重建·sfm
卡梅德生物科技小能手7 小时前
卡梅德生物科普:CD94(NKG2A)
人工智能·深度学习
阿拉斯攀登8 小时前
AI Agent 入门:从 ChatGPT 到自主智能体
人工智能·chatgpt·agent·ai编程·loop