MedMoE:医学视觉-语言理解领域的专业专家组合

不同的医学影像模式能够以不同的空间分辨率捕捉诊断信息,从粗略的全局模式到细粒度的局部结构。然而,医学领域大多数现有视觉语言框架采用统一的局部特征提取策略,忽视了特定模态的需求。**本研究介绍了MedMoE,一种模块化且可扩展的视觉语言处理框架,能够根据诊断语境动态调整视觉表征。**MedMoE包含基于报告类型的专家混合(MoE)模块,将多尺度图像特征路由经过专门专家分支,这些专家专门负责捕捉特定模态的视觉语义。这些专家基于基于Swin Transformer骨干的特征金字塔工作,实现对临床相关区域的空间适应性关注。该框架生成与文本描述对齐的局部视觉表示,无需推理时依赖特定模态的监督。多项医学基准的实证结果表明,MedMoE提升了不同影像模式的比对和检索性能,凸显了临床视觉语言系统中模式专门视觉表征的价值。

提出了MedMoE ,一种模块化视觉语言框架,将专家混合(MoE)引入本地视觉处理流程,实现基于诊断语境的条件专业化。基于MoE的架构在大规模语言模型中日益受到重视[3]以及多模态系统[11,24],他们通过动态路由专业专家模块来提升效率和泛化性。MedMoE将从图像中提取的局部视觉特征通过一组感知模态的专家分支进行路由。每位专家都经过培训,专注于特定诊断语境,使模型能够有选择地强调与相关报告语义细度相符的空间特征。这一动态路由机制使MedMoE能够根据特定治疗方式的需求调整视觉基础,在多个医学基准测试中优于现有的多尺度对比学习方法。

(1)MedMoE通过根据报告内容将多尺度视觉特征路由专家分支,实现上下文感知专精,实现针对报告语义和成像类型的自适应对齐。

(2)MedMoE通过专家路径实现动态特征专精,其中路由由模态特定的报告上下文决定。

(3)MedMoE,这是首个将报告条件MoE路由集成到视觉特征提取器本身的医疗VLM。该设计支持了针对模式和任务的专家选择,实现自适应局部接地,解决了现有流水线中静态、一刀切处理的瓶颈。

图2:MedMoE的整体架构。 Swin transform提取多尺度特征,模态感知路由器根据全局图像嵌入选择专业专家。专家通过局部对比损耗输出与单词级文本对齐的局部嵌入。全局对比损耗和辅助损耗分别强制图像-文本对齐并监督专家选择。

诊断感知型专家混合(MoE)框架,用于医学视觉语言建模中上下文敏感的局部特征提取。MedMoE 扩展了 GLoRIA 建立的全球-局部对比范式[6]同时引入了一种动态的报告条件机制,用于多尺度局部视觉表示。具体来说,MedMoE用一个MoE模块替代静态特征提取器,该模块将多尺度视觉特征通过模态专业的专家分支路由。路由基于诊断报告,实现自适应专业化。

相关推荐
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
呉師傅5 天前
火狐浏览器报错配置文件缺失如何解决#操作技巧#
运维·网络·windows·电脑
2501_946205525 天前
晶圆机器人双臂怎么选型?适配2-12寸晶圆的末端效应器有哪些?
服务器·网络·机器人
linux kernel5 天前
第七部分:高级IO
服务器·网络
数字护盾(和中)5 天前
BAS+ATT&CK:企业主动防御的黄金组合
服务器·网络·数据库
~远在太平洋~5 天前
Debian系统如何删除多余的kernel
linux·网络·debian
unfeeling_5 天前
Keepalived实验
linux·服务器·网络
坐吃山猪5 天前
OpenClaw04_Gateway常见问题
网络·gateway·openclaw
上海云盾商务经理杨杨5 天前
2025年重大网络安全事件回顾与趋势分析
网络·安全·web安全
kylezhao20195 天前
C# 的开闭原则(OCP)在工控上位机开发中的具体应用
网络·c#·开闭原则