前沿技术借鉴研讨-2026.4.16(视觉语言模型/医学影像文本多模态对齐)

Multi-Agent Undercover Gaming: Hallucination Removal Through Counterfactual Test for Multimodal Reasoning (AAAI 2026) (A会)

核心内容:

这篇论文提出多智能体卧底游戏(MUG),用反事实视觉测试解决多模态大模型的幻觉问题,比传统多智能体辩论(MAD)更可靠、更能揪出幻觉智能体。

Anatomical Region-Guided Contrastive Decoding: A Plug-and-Play Strategy for Mitigating Hallucinations in Medical VLMs (AAAI 2026) (A会)

核心内容:

提出ARCD(解剖区域引导的对比解码),用无需训练、即插即用的方式,解决医学视觉语言模型(MedVLMs)的幻觉问题,让回答严格锚定影像关键区域,不瞎编。

(挑战)医学多模态模型容易幻觉:

依赖文本先验,不看图像证据

现有方案要么需要昂贵专家标注(训练式),要么全局修正不可靠(无训练)

(方法)用解剖分割掩码,在推理阶段做三级对比引导,强制模型只看关键区域:

  1. 动态注意力掩码生成
    输入:医学影像 + 解剖分割掩码(医生 / MedSAM 标注)
    转成和图像 token 对齐的全局 + 局部掩码,告诉模型哪块是诊断关键区
  2. 掩码引导的三级条件加权在生成的三个层级做对比加权
    Token 级:抑制非关键区的 token 嵌入
    Attention 级:放大关键区的注意力权重
    Logits 级:融合 "引导分支" 与 "普通分支" 的概率

优点:

完全无训练,即插即用;兼容任意 MedVLM 与分割模型;精准、可解释、临床可信

FAMDR: Feature-Aligned Multimodal Denoising for Reliable Diagnostic Reconciliation in Medical Imaging (AAAI 2026) (A会)

核心内容:

提出了FAMDR:一个面向医学影像的特征对齐多模态去噪框架,核心是解决影像发现与临床病史不一致的问题,让 AI 诊断更可靠、可解释、带置信度。

(挑战)现有医学影像报告生成 AI 有两大缺陷:

只追求描述通顺,忽略影像与病历的事实矛盾(比如影像有阴影,病历写 "无异常")。

把跨模态不一致直接当噪声丢掉,错过真正有临床意义的信号,容易误诊。

创新:

FAMDR = 多模态对齐 + 外部知识检索 + 细粒度矛盾定位 + 不确定性量化 + 可信报告生成

输入:医学影像 + 电子病历(EHR)

输出:去噪后的诊断、矛盾位置、置信分数

  1. CAMAL:差异感知多模态对齐:区分 "真矛盾" 和 "正常差异"。
  2. X-MRA:跨模态检索增强:从外部医学库检索相似病例 / 知识,解决罕见病、模糊病例。
  3. G-CLAM:细粒度矛盾定位:在像素级(影像)+ 短语级(文本)定位矛盾。
  4. MCUQ:医学矛盾不确定性量化:模态不一致、知识检索模糊、模型本身认知不确定
  5. CLEAR:矛盾引导的报告生成:解码时重点关注矛盾区域,生成带证据、可解释的报告。
相关推荐
钓了猫的鱼儿1 小时前
基于深度学习+AI的城市人行道障碍物目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)
人工智能·深度学习·目标检测
天竺鼠不该去劝架4 小时前
除了技术问题,哪些因素会导致自动化项目彻底失控?
经验分享
HackTorjan6 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.6 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙7 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗7 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston7 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz7 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家7 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰7 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型