前沿技术借鉴研讨-2026.4.16（视觉语言模型/医学影像文本多模态对齐）

Multi-Agent Undercover Gaming: Hallucination Removal Through Counterfactual Test for Multimodal Reasoning (AAAI 2026) (A会)

核心内容：

这篇论文提出多智能体卧底游戏（MUG），用反事实视觉测试解决多模态大模型的幻觉问题，比传统多智能体辩论（MAD）更可靠、更能揪出幻觉智能体。

核心内容：

提出ARCD（解剖区域引导的对比解码），用无需训练、即插即用的方式，解决医学视觉语言模型（MedVLMs）的幻觉问题，让回答严格锚定影像关键区域，不瞎编。

（挑战）医学多模态模型容易幻觉：

依赖文本先验，不看图像证据

现有方案要么需要昂贵专家标注（训练式），要么全局修正不可靠（无训练）

（方法）用解剖分割掩码，在推理阶段做三级对比引导，强制模型只看关键区域：

动态注意力掩码生成
输入：医学影像 + 解剖分割掩码（医生 / MedSAM 标注）
转成和图像 token 对齐的全局 + 局部掩码，告诉模型哪块是诊断关键区
掩码引导的三级条件加权在生成的三个层级做对比加权
Token 级：抑制非关键区的 token 嵌入
Attention 级：放大关键区的注意力权重
Logits 级：融合 "引导分支" 与 "普通分支" 的概率

优点：

完全无训练，即插即用；兼容任意 MedVLM 与分割模型；精准、可解释、临床可信

核心内容：

提出了FAMDR：一个面向医学影像的特征对齐多模态去噪框架，核心是解决影像发现与临床病史不一致的问题，让 AI 诊断更可靠、可解释、带置信度。

（挑战）现有医学影像报告生成 AI 有两大缺陷：

只追求描述通顺，忽略影像与病历的事实矛盾（比如影像有阴影，病历写 "无异常"）。

把跨模态不一致直接当噪声丢掉，错过真正有临床意义的信号，容易误诊。

创新：

FAMDR = 多模态对齐 + 外部知识检索 + 细粒度矛盾定位 + 不确定性量化 + 可信报告生成

输入：医学影像 + 电子病历（EHR）

输出：去噪后的诊断、矛盾位置、置信分数