多模态大模型产生幻觉的直接原因是否是语言先验问题

视觉信息是对的 → 后层被改写 → 幻觉来源于语言先验


Step 1:证明"视觉信息其实是正确的"(排除错误来源)

实验:layer-wise probing(逐层探测)

论文做法:

  • 在每一层的 hidden state 上训练一个 probe classifier

  • 输入形式:

    The image contains <obj>

  • 判断模型是否"认为这个物体存在"

相当于在问每一层:

"你现在觉得这个物体在不在?"


结果:

  • 模型在中间层可以达到 ≈80% 准确率
  • 而且:
    • 前层更准
    • 后层反而变差

结论 1:

模型已经正确看到了图像内容

也就是说:

❌ 幻觉 ≠ 看不见

✅ 幻觉发生在看到之后


Step 2:发现"信息被改写"(关键现象)

实验:tracking logits across layers(跟踪 token 概率)

论文做法:

  • 对每一层都计算:

    p(xt∣x<t)ip(x_t | x_{<t})_ip(xt∣x<t)i

  • 观察:

    • ground-truth token(真实物体)
    • hallucinated token(错误物体)

在不同层的概率变化


关键现象:

✔ 真实 token(例如 umbrella)

  • 在第 18 层:概率很高 ✅
  • 到第 30 层:开始下降 ❌
  • 最后一层:被压下去 ❌

✔ 幻觉 token(例如 bird)

  • 前层:概率很低
  • 后层:突然升高
  • 最后一层:超过真实 token

这是整个论文最关键的观察之一:

真实信息在前层是对的,但被后层"压掉了"

结论 2:

存在一个"后层机制"在主动改写预测结果

但此时还不知道是谁在改写。


Step 3:验证"是谁在改写"(核心因果实验)

这是论文最关键的一步。

实验设计:去掉视觉输入(干预变量)

目标:

判断"幻觉 token 是不是来自语言模型本身"


✔ 构造对照实验:

条件 输入
正常 图像 + 文本
干预 ❌ 无图像 + 文本

✔ 做法:

  • 不输入图像

  • 只保留文本上下文

  • 得到候选 token 集合:

    Vcandidate′V'_{candidate}Vcandidate′


📊关键结果:

幻觉 token(xh)在 Vcandidate′V'_{candidate}Vcandidate′​ 中的出现率:

{91.05%}

逻辑推导(核心)

已知事实:

  1. 前层已经知道真实答案(视觉正确)
  2. 后层压制了真实 token
  3. 幻觉 token 在"无图像时"也会出现(91%)

推理:

如果一个 token:

  • 不依赖图像也会出现
  • 并且在最终层占优

那么它的来源只能是:

语言模型内部知识(language prior)


关键因果结论:

后层并不是"随机出错",而是被语言先验主导

相关推荐
txg6664 分钟前
机器人领域简报(2026年5月7日—5月13日)
人工智能·机器学习·机器人
qdprobot9 分钟前
【无标题】
人工智能·单片机·嵌入式硬件·51单片机·硬件工程·iot·mixly
1892280486110 分钟前
NV231美光闪存MT29F32T08GWLBHD6-MES:B
大数据·服务器·人工智能·科技·缓存
多年小白11 分钟前
Snowflake (SNOW) 可比公司分析报告
大数据·人工智能·科技·深度学习·ai
圣殿骑士-Khtangc17 分钟前
Kimi Agent Swarm 与 Claude Code Team 模式深度对比:一场被误读的较量
人工智能
多年小白18 分钟前
【行情复盘】2026年5月14日(周四)
人工智能·科技·机器学习·ai·金融
前端若水23 分钟前
安全与伦理:智能体权限控制与内容过滤
人工智能·安全
YuanDaima204823 分钟前
云计算基础与容器技术演进
java·服务器·人工智能·python·深度学习·云计算·个人开发
生信之灵25 分钟前
告别模板配准:LAMNr Flow如何用一次求逆破解多模态解剖对齐难题
人工智能·算法
comcoo26 分钟前
阿里云百炼 接入 OpenClaw 全攻略
人工智能·openclaw安装包·open claw部署