CARES:医学视觉语言模型可信度的综合基准
-
- [1. 研究背景与动机](#1. 研究背景与动机)
- [2. 方法论创新](#2. 方法论创新)
- [3. 核心实验结果](#3. 核心实验结果)
- [4. 贡献与意义](#4. 贡献与意义)
- 5.总结
CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models
CARES:医学视觉语言模型可信度的综合基准
Accepted by NeurIPS 2024
github:地址
1. 研究背景与动机
- 医疗AI的机遇与挑战 :
Med-LVLMs在自动化医疗诊断、个性化治疗建议等领域展现出潜力,但其实际部署面临重大风险------可信度未经验证。模型可能生成非事实的医疗诊断、对生成的诊断过于自信、隐私泄露、健康差异等。例如,模型将良性肿瘤误诊为恶性肿瘤,可能导致不必要的侵入性手术,给患者带来巨大的精神痛苦。 因此,在医疗应用中,了解和评估 Med-LVLM 的可信度至关重要。 - 现有研究空白 :
此前工作多聚焦单一维度(如诊断准确性),缺乏系统性评估框架。CARES填补了这一空白,首次从可信性、公平性、安全性、隐私性、鲁棒性五个维度全面评估Med-LVLMs。图1

2. 方法论创新
2.1 数据集构建(CARES Benchmark)
- 数据来源与规模 :
整合7个公开医疗数据集(如MIMIC-CXR、HAM10000等),覆盖16种医学影像模态 (X光、MRI等)和27个解剖区域(胸部、皮肤等),包含18K图像与41K QA对。 - 问题类型设计 :
- 封闭式问题(多选题/是非题):评估模型对明确答案的准确性。
- 开放式问题:要求生成描述性回答,通过GPT-4评分(1-10分)量化准确性,更贴近真实医疗场景的复杂性。
- 数据生成与校验 :
利用GPT-4自动生成QA对,结合人工审核确保质量,增强多样性与临床相关性。
2.2 评估维度与指标
-
可信性(Trustfulness)
- 事实性 :直接评估回答准确性(封闭式匹配,开放式GPT-4评分)。与一般的 LVLMs类似,Med-LVLMs 也容易产生事实幻觉,即模型可能生成错误或误导性的医疗条件信息,包括对症状或疾病的错误判断,以及对医疗图像的不准确描述。在结果上,LLaVA-Med 的整体性能最好
- 不确定性 :模型是否合理判断自身知识的边界(通过"是否确定正确"的附加提问,计算过自信率) 。对于基于不确定性的准确度,我们将模型以置信度正确预测(即对不确定性问题回答 "是")或预测错误但承认不确定性(即回答 "否")的情况视为正确。 反之,模型预测错误但有信心,或预测正确但缺乏信心,则被视为不正确样本。 因此,我们建议测量模型有把握做出错误预测的实例比例,我们称之为过度自信比率。
-
公平性(Fairness)
- 按年龄、性别、种族分组统计准确率差异,量化模型在不同群体中的表现偏差。
- 按年龄、性别、种族分组统计准确率差异,量化模型在不同群体中的表现偏差。
-
安全性(Safety)
- 越狱攻击(Jailbreaking):设计诱导模型生成错误医疗建议的恶意提示,评估防御能力(拒绝回答率)。
- 毒性(Toxicity):通过诱导生成有害内容,使用Perspective API量化毒性得分变化。
- 过度谨慎(Overcautiousness):模型对常规医疗问题的不必要拒绝率。
-
隐私性(Privacy)
- 零样本/少样本隐私泄露:直接询问患者隐私信息(如婚姻状态),评估模型拒绝回答的能力与生成虚构隐私信息的倾向。
-
鲁棒性(Robustness)
- 输入级扰动:加入噪声后模型性能下降幅度。
- 语义级分布偏移:测试模型对未见模态(如用放射学模型处理眼底图像)的识别与拒绝能力。
3. 核心实验结果
3.1 可信性
- 事实性错误普遍:所有模型在开放式问题上准确率低于50%,罕见解剖区域(如足部)表现更差。
- 过度自信问题严重:模型倾向于对错误答案高度自信(如Med-Flamingo过自信率59.11%)。
3.2 公平性
- 年龄差异:40-60岁群体表现最佳,老年群体因训练数据不足准确率显著下降。
- 种族差异:西班牙裔和白人群体表现优于其他种族(如HAM10000数据集中准确率差异达15%)。
3.3 安全性
- 越狱攻击有效:所有模型在恶意提示下准确率下降(如LLaVA-Med下降4.78%),仅LLaVA-Med具备一定防御机制(拒绝率30.17%)。
- 毒性生成风险:通用LVLM(如LLaVA-v1.6)毒性得分增幅显著(+14.26%),Med-LVLMs防御能力较弱。
3.4 隐私性
- 隐私保护不足:多数模型无法有效拒绝隐私问题(如RadFM拒绝率为0),且倾向于生成虚构隐私信息(准确率普遍低于50%)。
- 少样本泄露风险:暴露虚构示例后,模型更易泄露输入中的隐私信息(如Qwen-VL-Chat准确率从5.10%升至11.32%)。
3.5 鲁棒性
- 输入扰动敏感:加入噪声后模型准确率显著下降(如LLaVA-Med在IU-Xray上下降9.33%),但拒绝回答率低(<5%)。
- 分布外数据处理差:模型对未见模态(如眼底图像)几乎无拒绝能力(拒绝率≈0%)。
4. 贡献与意义
- 首个系统性医疗VLMs可信度基准:覆盖多维度、多模态,为研究提供标准化评估工具。
- 关键问题揭示:指出现有模型的严重缺陷(如事实性错误、公平性偏差),推动改进方向。
5.总结
在本文中,介绍了 CARES,这是一个旨在评估医学 LVLM 可信度的综合基准。 它涵盖 16 种医学成像模式和 27 种解剖结构,通过不同的问题形式评估模型的可信度。 CARES 从多个维度--可信度、公平性、安全性、隐私性和稳健性--全面评估了医学 LVLM。 作者的研究结果表明,现有的 Med-LVLM 非常不可靠,经常出现事实错误和能力判断失误。 此外,这些模型在实现跨人口群体的公平性方面也很困难,而且容易受到攻击并产生有毒反应。 最终,CARES 所做的评估旨在推动进一步标准化,开发出更可靠的 Med-LVLMs。