医学领域的deepseek:Med-R1,用强化学习开启医学视觉语言模型推理

小罗碎碎念

在医学AI领域,视觉语言模型(VLMs)虽在自然场景推理成果丰硕,但用于医学影像推理时却面临诸多挑战。

传统基于监督微调(SFT)的方法,常使模型过度拟合训练数据,难以学习到通用的推理能力,且医学领域高质量思维链(CoT)注释稀缺,严重制约了模型发展。这些问题使得模型在临床应用中缺乏可解释性和可靠性,难以获得医生信任。为解决这些难题,文章提出Med-R1框架。

作者身份 姓名 单位中文翻译
第一作者 Yuxiang Lai、Jike Zhong 1. 埃默里大学计算机科学与信息学系 2. 南加州大学计算机科学系
通讯作者 Xiaofeng Yang 1. 埃默里大学计算机科学与信息学系 5. 佐治亚理工学院和埃默里大学生物医学工程系 6. 埃默里大学放射肿瘤学系和温希普癌症研究所

该框架借助强化学习(RL),采用Group Relative Policy Optimization(GRPO)策略。与SFT不同,GRPO通过奖励信号引导模型探索多样的推理路径,避免过度依赖标注的CoT,有效减少过拟合和捷径学习。

同时,GRPO整合了基于医学指南的规则奖励和组相对比较机制,确保模型学习到符合临床逻辑的推理路径,且无需复杂价值模型,提升了计算效率。

研究人员对Med-R1在8种医学成像模态和5种医学视觉问答任务上进行了全面评估。结果显示,Med-R1在跨模态和跨任务泛化方面表现卓越,平均准确率相较于基础模型Qwen2-VL-2B提升显著,甚至超越了参数规模大得多的Qwen2-VL-72B。

这表明Med-R1在医学推理能力上的优势,为医学AI研究提供了新的思路和方向,有望推动可泛化、值得信赖且适用于临床的医学VLMs的发展。


交流群

欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。

目前小罗全平台关注量52,000+,交流群总成员1100+,大部分来自国内外顶尖院校/医院,期待您的加入!!

由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群


知识星球

如需获取推文中提及的各种资料,欢迎加入我的知识星球!


一、文献概述

"Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models"提出Med-R1框架,利用强化学习(RL)提升视觉语言模型(VLMs)在医学推理中的泛化性和可信度。研究表明,Med-R1在多模态和跨任务推理上表现优异,为医学VLMs发展开辟新方向。

  1. 挑战与动机:VLMs在自然场景推理成果显著,但医学影像推理存在困难。医学影像要求精准解读和可解释推理过程,而当前基于监督微调(SFT)的医学VLMs存在过拟合、缺乏高质量思维链(CoT)注释等问题,限制了泛化性和临床应用。
  2. 相关工作:通用VLMs和医学VLMs中,现有SFT方法在医学领域泛化性不足。强化学习用于训练可提升模型表现,但传统方法依赖复杂奖励模型或大量人工标注,在医学领域扩展性受限。医学推理和可解释性研究中,获取相关注释困难,RL可实现无监督推理。
  3. 方法:采用GRPO训练医学推理模型,通过基于组的估计和固定规则奖励优化策略梯度。奖励设计包括格式奖励和准确率奖励,促使模型结构化输出并保证答案正确。
  4. 实验与结果:使用OmniMedVQA数据集,在跨模态和跨任务两种设置下评估Med-R1,对比通用VLMs、医学VLMs和SFT变体。跨模态实验中,Med-R1整体准确率69.91%,在多种模态上优于其他模型;跨任务实验中,其整体准确率74.64%,超越零样本和SFT基线模型。
  5. 结论:Med-R1有效克服SFT局限,提升跨模态和跨任务泛化能力,参数高效,为医学推理提供更安全、透明和可靠的方案。未来可通过整合多模态数据、改进不确定性量化和优化可解释性进一步提升。

二、评估框架

八种医学成像模态及示例问答

  1. MRI(磁共振成像)
    • 问题:在这张图像中能观察到什么?
    • 答案:动静脉畸形(Arteriovenous anomaly)
  2. Fundus(眼底)
    • 问题:这张图像中显示的异常是什么?
    • 答案:年龄相关性黄斑变性(Age - related Macular degeneration,AMD)
  3. CT(计算机断层扫描)
    • 问题:存在哪种类型的异常?
    • 答案:肝病变(Liver lesion)
  4. Ultrasound(超声)
    • 问题:这张超声图像显示的是身体哪个部位?
    • 答案:肾脏(Kidney)
  5. OCT(光学相干断层扫描)
    • 问题:所描绘的异常有什么特征?
    • 答案:中央视网膜积液(The accumulation of fluid in the central retina)
  6. X - Ray(X射线)
    • 问题:这张图像中存在哪种细胞?
    • 答案:中性粒细胞(neutrophils)
  7. Dermoscopy(皮肤镜检查)
    • 问题:在这张图片中看到的特定异常是什么?
    • 答案:基底细胞癌(Basal Cell Carcinoma)
  8. Microscope(显微镜)
    • 问题:这张图像中存在哪种细胞?
    • 答案:中性粒细胞(Neutrophils)

五种医学视觉问答任务及示例问答

  1. Anatomy Identification(解剖结构识别)
    • 问题:这张超声图像显示的是身体哪个部位?
    • 答案:甲状腺(Thyroid)
  2. Disease Diagnosis(疾病诊断)
    • 问题:在这张图像中能观察到什么?
    • 答案:软骨异常(Chondral abnormality)
  3. Lesion Grading(病变分级)
    • 问题:所描绘的损伤具体处于哪个阶段?
    • 答案:软骨异常
  4. Modality Recognition(模态识别)
    • 问题:用于拍摄这张图像的成像模态是什么?
    • 答案:眼底成像(Retinal fundus imaging)
  5. Other Attributes(其他属性)
    • 问题:用于拍摄这张图像的成像模态是什么?
    • 答案:眼底成像(Retinal fundus imaging)

三、医学视觉问答(VQA)示例及 Med - R1 模型的回答和推理过程

左侧模态识别任务

  • 问题解析:需要根据图像内容判断图像描绘的是什么组织。通过观察图像的形状、密度等特征,结合医学成像知识来确定。
  • 答案:D(乳腺组织)
  • Med - R1推理过程:Med - R1 模型判断该图像是乳腺钼靶(mammogram)图像,属于 X 射线成像的一种,常用于检测乳腺组织异常。从图像中可以看到致密、不规则的图案以及中心区域密度较浅,这些特征表明是乳腺组织。其他选项,A 脑部组织、B 肠道组织、C 肾脏组织的图像特征与图中不符。

右侧疾病诊断任务

  • 问题解析:根据腹部CT扫描图像判断存在的具体异常情况。需要依据图像中显示的结构和特征,与各种疾病的影像学表现进行对比。
  • 答案:C(尿路结石)
  • Med - R1推理过程:Med - R1 模型识别出该图像是腹部的计算机断层扫描(CT)图像。虽然仅从图像结构不能立刻明确具体异常,但在腹部右下象限存在一个大而致密的肿块,这种表现提示可能是尿路结石(urolithiasis)。A 肺炎是肺部疾病,图像中未显示肺部相关区域;B 鼻窦炎主要影响鼻窦区域,图中并非鼻窦部位;D 骨质疏松主要表现为骨骼密度变化,与图中右下象限的致密肿块表现不符。

四、性能展示

经过强化学习(RL)后训练的Med - R1模型在跨模态泛化性能方面的表现

表格解读

  • 列表示训练模态,行表示测试模态。
  • 单元格颜色越深,表明对应训练 - 测试模态对的准确率越高。
  • "Overall"行和列分别表示每个训练模态和测试模态的平均性能。

Med - R1模型在五种临床推理任务类型中的跨任务泛化性能

  • 表头信息:列是训练任务,行是测试任务。颜色越深,泛化能力越强。
  • 数据解读
    • 解剖结构识别(Anatomy Identification):训练该任务后,在自身测试上准确率96.06%,在模态识别测试上98.62%,平均76.83%。
    • 疾病诊断(Disease Diagnosis):训练后在自身测试准确率98.25%,整体平均81.64%,表现突出。
    • 病变分级(Lesion Grading):训练后在自身测试86.24% ,平均73.57%。
    • 模态识别(Modality Recognition):训练后自身测试达99.46% ,平均67.59%。
    • 其他属性(Other Attributes):训练后在自身测试96.59% ,平均73.58%。
    • 整体所有测试任务平均准确率74.64%,其中模态识别测试任务平均准确率最高,为98.24% 。这表明特定领域训练能保持任务内专长,且对新任务有适应性,尤其在模态识别这类技能上。

科研合作意向统计

为了更好的利用小罗搭建的交流平台,我决定发放一个长期有效的问卷,征集大家在科研方面的任何需求,并且定期整理汇总,方便大家课题合作,招收学生,联系导师......


结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!

相关推荐
樱花穿过千岛湖24 分钟前
第六章:Multi-Backend Configuration
人工智能·python·gpt·学习·ai
跳跳糖炒酸奶1 小时前
第十五讲、Isaaclab中在机器人上添加传感器
人工智能·python·算法·ubuntu·机器人
前进的程序员1 小时前
深度学习:人工智能的核心驱动力
人工智能
_一条咸鱼_2 小时前
Python 名称空间与作用域深度剖析(二十七)
人工智能·python·面试
_一条咸鱼_2 小时前
Python之函数对象+函数嵌套(二十六)
人工智能·python·面试
_一条咸鱼_2 小时前
Python 文件操作之修改(二十二)
人工智能·python·面试
_一条咸鱼_2 小时前
Python 闭包函数:原理、应用与深度解析(二十八)
人工智能·python·面试
_一条咸鱼_2 小时前
Python 之文件处理编码字符(二十)
人工智能·python·面试
_一条咸鱼_2 小时前
Python 装饰器:代码功能的优雅增强(二十九)
人工智能·python·面试
_一条咸鱼_2 小时前
Python 文件处理(二十一)
人工智能·python·面试