MMED-RAG: VERSATILE MULTIMODAL RAG SYS-TEM FOR MEDICAL VISION LANGUAGE MODELS
论文标题:MMED-RAG: VERSATILE MULTIMODAL RAG SYS-TEM FOR MEDICAL VISION LANGUAGE MODELS
MED-RAG:用于医学视觉语言模型的多功能多模态 RAG 系统
论文地址:地址
github:地址
Accepted by ICLR 2025
1.背景:
人工智能(AI)已经改变了医疗保健行业,而且仍有很大的发展潜力。 最近,医学大型视觉语言模型(Med-LVLMs)在推进交互式智能诊断方面显示出巨大的前景。 尽管有这样的潜力,目前的 Med-LVLMs 仍然面临着重大的可靠性问题,特别是它们生成非事实医疗响应的倾向,使它们在关键医疗应用中变得不可靠。 在临床环境中部署此类模型时,这些事实性问题会引起严重关切,因为在临床环境中,即使是很小的诊断错误也会给病人护理带来严重后果。
2.问题:
最近的研究开始聚焦在提高医学多模态大模型的事实性,降低幻觉的发生。主要有两种方法,微调(fine-tuing)和RAG,但是都面临这不少的局限性。
微调的局限性:
- 医学领域缺乏高质量标注的数据
- 训练数据和实际部署数据之间往往存在分布差距
RAG的局限性:
- 往往针对特定的数据集,降低了它们在不同医学领域的通用性。
- 面临着不对齐问题导致事实性问题,这种不对齐可能使由于添加RAG度原始Med-LVLMs跨模态对齐的影响,以及对模型和真实标签之间整体对齐的影响。
3.主要贡献:
提出了MMed-RAG,主要的方法如下:
- 首先MMed-RAG首先引入了一个领域感知检索机制,旨在更有效地处理不同领域的医学图像。 在这里,作者设计了一个领域识别模块,可根据输入的医学图像自适应地选择相应的检索模型。
- 其次,采用了一种自适应校准方法来选择检索上下文的数量。
- 最后,MMed-RAG 结合了基于 RAG 的偏好微调,以加强跨模态对齐(Cross Modality Alignment)和与真实标签的整体对齐(Overall Alignment)。偏好对的设计旨在实现两个目标:
- 第一,通过鼓励模型避免在没有利用输入医学图像的情况下生成反应,即使反应是正确的,从而改善跨模态对齐;
- 第二,通过鼓励模型在不确定时理解检索到的上下文,同时避免无关检索信息的干扰,从而改善整体对齐。
主要贡献:
- 理论分析表明,MMed-RAG 可减轻跨模态偏差和与真实标签的整体偏差。
- 在涵盖三种医学图像模式(放射学、病理学和眼科学)的五个医学多模态数据集上的实证结果表明,MMed-RAG 显著提高了 Med-LVLM 的事实准确性,与原始 Med-LVLM 相比,MMed-RAG 在医学 VQA 和报告生成任务上分别提高了 18.5% 和 69.1%。
- 这些实证研究结果进一步证明了提出的组件的有效性,并为解决对齐问题的理论分析提供了支持。
4.方法:

a.领域感知检索机制
- 领域分类模块:创建了一个小型数据集,以医学图像作为输入,以相应的领域标签作为输出,基于BiomedCLIP模型进行微调,预测图像的领域标签。
- 领域专用检索器:针对每个领域训练多模态检索器,通过对比学习和对齐图像和文本嵌入
b.自适应检索上下文选择

背景:过多过少的检索上下文可能都会导致幻觉问题。
目前现有的方法:
- 依赖经验值或者使基于验证集的固定值来选择检索上下文数量k的最佳值。这些固定k值的方法不能保证在目标数据上达到最佳性能,因为它们忽略了检索过程中产生的相似性得分。
- 作者实验表明,在使用固定检索k时候,低质量的信息(相似度分数较低)也会表检索到。低质量检索包含了噪声和不相关的信息,影响模型生成的事实性和连贯性。
提出:
- 作者从聚类中使用差距统计方法中汲取灵感,并将这一概念扩展到Med-LVLM的RAG中
- 计算相邻检索结果的相似度变化率 u i u_i ui,当 u i u_i ui超过阈值时停止检索.
- 当u超过预先设定的阈值y时,表明相关性大幅度下降,表明剩余的检索不太可能对模型的输出做出优先的贡献。
u i = l o g ( S i / S i + 1 ) f o r 0 < i ≤ k u_i = log(Si/Si+1) for 0 < i ≤ k ui=log(Si/Si+1)for0<i≤k
S i S_i Si 表示第 i 个检索上下文的相似度得分。
c.基于RAG的偏好微调
合并检索到的知识可能会潜在的破坏现有Med-LVLM中的原始对齐。
(1)对齐分析:
-
首先当原始图像替换为与不同真实标签相关的噪声图片时,原始模型会给出给出错误的答案;在加入RAG后,即根据原始图像检索上下文时,55.08%的情况下会返回正确答案。这表明模型直接引用了检索到的知识,而没有考虑输入的图像,这凸显了显著的跨模态不对齐问题
-
此外,43.31%原本回答正确的问题在加入RAG后回答错误,这表明错误的检索信息造成了干扰,从而导致了与基本事实的整体不对齐。
(2)跨模态对齐的偏好对:
- 目标:强制模型必须结合图像生成答案,避免"偷懒"依赖文本。
- 问题场景举例
- 输入:肺炎患者的胸部X光片+问题"是否患有肺炎"+检索到的肺炎诊断报告。
- 错误行为:模型直接复制检索内容回答"是",但未分析当前X光片(可能实际图像不典型或者有噪声)
- 解决方案 :
- 正样本(Preferred):模型结合真实图像和检索内容,回答"是"并指出关键影像特征(如肺叶浸润)。
- 负样本(Dispreferred):替换真实图像为噪声图像(使用检索器选择与目标图像相似度最低的图像,然后在所选的非相关图像中引入扩散噪声),若模型仍然回答"是",则视为不靠谱行为(噪声图像无法支持结论)。
- 优化逻辑:通过对比学习,惩罚仅依赖文本回答正确的样本,鼓励模型"看图说话"。
案例分析:
python
输入:
- 图像:噪声图像
- 问题:"患者是否有骨折?"
- 检索内容:骨折病例报告
负样本响应(Dispreferred):
"是的,根据X光显示骨折。" → 模型未分析图像,直接依赖检索生成。
正样本响应(Preferred):
"图像质量不佳,无法确认骨折,建议重新拍摄。" → 模型优先关注图像可靠性。
(3)整体对齐偏好对
目标:构建偏好对以改善整体一致性,重点是提高模型在生成回复时有效利用检索知识的能力,避免"盲目自信"或者"过度依赖"
子目标1:加强模型对检索知识的理解和推理能力
- 场景:图像模糊或者特征不显著时,模型应该借助检索知识辅助判断。
- 正样本(Preferred) :模型根据原始图像和检索到的信息做出正确回答的情况. M ( x v , x t + x r ) = y M(x_v,x_t+x_r) = y M(xv,xt+xr)=y
- 负样本(Dispreferred) :模型在没有使用检索的情况下根据图像做出错误回答的情况 M ( x v , x t ) ! = y M(x_v,x_t)!=y M(xv,xt)!=y
子目标2:抵抗无关检索干扰
- 场景:图像清晰且检索内容无关时,模型应忽略检索。
- 正样本(Preferred):模型仅根据原始图像而不使用检索到的知识(即 M(x_v , x_t) = y)做出正确回答时
- 负样本(Dispreferred) :模型同时使用图像和检索到的信息(即 M ( x v , x t + x r ) ! = y M(x_v , x_t + x_r ) != y M(xv,xt+xr)!=y)做出错误回答时
5.实验结果
实验细节:使用 LLaVA-Med-1.5 7B 作为骨干模型。 在偏好微调过程中,我们采用了 LoRA 微调方法(。 对于 retriever 的训练,视觉编码器是 ResNet-50),文本编码器是 bio-BioClinicalBERT。 使用 AdamW 优化器,学习率为 10-3,权重衰减为 10-2,批量大小为 32。 模型训练了 360 个epoch。
基线方法: 将 MMed-RAG 与两类 LVLM 幻觉缓解方法进行了比较,这两类方法在自然图像理解方面取得了可喜的成果。 1) 基于解码的方法,包括贪婪解码、光束搜索(Sutskever 等人,2014 年)、DoLa(Chuang 等人,2023 年)、OPERA(Huang 等人,2023 年)、VCD(Leng 等人,2024 年)。 这些方法对模型输出标记的对数进行处理,以提高事实准确性。 2) 基于多模态 RAG 的方法,包括 MedDr(He 等人,2024)、FactMM-RAG(Sun 等人,2024b)、RULE(Xia 等人,2024c)。 此外,我们还与其他开源 Med-LVLM 进行了性能比较,包括 Med-Flamingo(Moor 等,2023 年)、MedVInT(Zhang 等,2023 年 b)、RadFM(Wu 等,2023 年 b)。
评估数据集: 利用五个医学视觉语言数据集来完成医学 VQA 和报告生成任务,即 MIMIC-CXR、IU-Xray、Harvard-FairVLMed、PMC-OA(只选择病理学部分)和 Quilt-1M 。 这些数据集涵盖放射学、眼科学和病理学。 为了构建 VQA 基准(Xia 等人,2024a),使用 GPT-4(OpenAI,2023)从医疗报告中生成问题和答案对,答案格式为是或否。 病理图像由于描述简短且不充分,因此不包括在报告生成任务中。
评估指标: 使用准确率、F1 分数和 AUROC 来评估医学 VQA 任务,使用 BLEU 分数(Papineni 等人,2002 年)、ROUGE-L(Lin,2004 年)和 METEOR(Banerjee & Lavie,2005 年)来评估报告生成任务。


与基线方法比较。将 MMed-RAG 与基线方法在医疗 VQA 和报告生成任务上进行了比较,结果分别如表 1 和表 2 所示。 总体而言,在几乎所有指标和数据集上,MMed-RAG 都优于所有基线方法。 具体来说,MMedRAG 的性能提升显著,在医疗 VQA 和报告生成任务中分别比原始 Med-LVLM 提高了 18.5% 和 69.1%。 与基线方法相比,MMed-RAG 超越了基于解码的方法,在这两项任务中分别提高了 11.5% 和 44.2%。 此外,基于 RAG 的最新方法比早期技术有了大幅改进,但我们的方法在医疗 VQA 和报告生成任务中仍分别比基于 RAG 的基线方法高出 2.8% 和 16.1%。 这表明 MMed-RAG 能有效缓解 RAG 带来的不对齐问题。 值得注意的是,MMed-RAG 在报告生成方面取得了更明显的进步,这可能是由于任务的复杂性更高,以及检索到的上下文在指导开放式生成方面的影响更大。