MEDDINOV3: HOW TO ADAPT VISION FOUNDATION MODELS FOR MEDICAL IMAGE SEGMENTATION?
MedDINOv3:如何将视觉基础模型适配于医学图像分割任务?
理解
将 "通用视觉基础模型" 改造适配到 "医学图像分割" 这一特定任务中
视觉基础模型:像 DINOv3、DINOv2 这类 "通用视觉大模型"------ 在十亿级自然图像(风景、人物、动物等)上预训练,能学习到通用的视觉特征(比如边缘、纹理、形状),可适配分类、检测等多种任务,但不是为医学场景设计的。
针对性改造:因为通用视觉模型的训练数据(自然图像)和医学影像差异极大,直接用会效果很差,所以需要通过调整模型结构、训练策略等,让模型 "看懂医学影像" 并完成分割。
论文提出的 "适配方案总称":"Med"(医学)+"DINOv3"(基础模型),即专门为医学分割任务改造后的 DINOv3 模型。
- 通用视觉基础模型的骨干(比如 ViT)擅长处理自然图像,但医学分割需要 "像素级精准识别"(比如区分肿瘤和正常组织的细微边界),直接用的话,性能还不如专门为医学场景设计的 CNN 模型
- 自然图像是彩色、语义丰富的,而医学影像是灰度的(CT/MRI)、语义单一(只有解剖结构),两者的 "视觉特征分布" 完全不同
摘要
CT 和 MRI 扫描中器官与肿瘤的精准分割,对于疾病诊断、治疗规划及病情监测至关重要。尽管深度学习推动了自动化分割技术的发展,但多数模型仍为任务专用型,缺乏跨模态、跨医疗机构的泛化能力。基于十亿级自然图像预训练的视觉基础模型(FMs)具备强大且可迁移的表征能力,然而将其适配于医学影像任务面临两大核心挑战:(1)多数基础模型的 ViT 骨干网络在医学图像分割任务上的性能仍不及专用卷积神经网络(CNNs);(2)自然图像与医学图像之间的显著领域差异,限制了模型的迁移性能。
为此,我们提出 MedDINOv3------ 一套将 DINOv3 适配于医学分割任务的简洁高效框架。首先,我们重新审视纯 ViT 模型,设计了一种集成多尺度令牌聚合 的简洁高效网络架构;随后,我们在 CT-3M 数据集(一个包含 387 万张轴向 CT 切片的精选数据集)上开展领域自适应预训练,采用多阶段 DINOv3 训练方案学习鲁棒的密集特征。实验结果表明,MedDINOv3 在四个分割基准数据集上的性能持平或超越当前最优水平,验证了视觉基础模型作为医学图像分割统一骨干网络的潜力。本研究的代码已开源,地址为:https://github.com/ricklisz/MedDINOv3。
理解1
首先,我们重新审视纯 ViT 模型,设计了一种集成多尺度令牌聚合的简洁高效网络架构;
纯 ViT 模型:指没加额外卷积层、适配器(如 ViT-Adapter)等复杂组件的基础视觉 Transformer,核心结构就是 "图像切块→令牌编码→多层注意力计算"。
令牌(token):ViT 会把图像切成固定大小的补丁(比如 16×16 像素),每个补丁经过编码后就是一个 "令牌",相当于图像的 "基础视觉单元";
多尺度:指 ViT 的不同中间层会输出不同层级的令牌 ------ 浅层令牌能捕捉边缘、纹理等细粒度特征,深层令牌能捕捉器官整体形状、语义等全局特征。
聚合:传统纯 ViT 只把最后一层的令牌传给解码器,相当于只用到了 "最深层的全局特征";而 MedDINOv3 会把第 2、5、8、11 层的令牌全部提取出来,拼接后再传给解码器,相当于让解码器同时拿到 "浅、中、深" 不同尺度的特征。
医学分割需要 "既看清局部细节,又把握整体结构"(比如区分肿瘤和周围正常组织,既要识别肿瘤边缘,又要知道肿瘤在肝脏里的位置);
多尺度令牌聚合能让解码器同时获得:
- 浅层令牌的 "细粒度细节"(比如器官边缘、微小病灶);
- 深层令牌的 "全局语义"(比如哪块是肝脏、哪块是肿瘤);
理解2
随后,我们在 CT-3M 数据集(一个包含 387 万张轴向 CT 切片的精选数据集)上开展领域自适应预训练,采用多阶段 DINOv3 训练方案学习鲁棒的密集特征。
给经过架构改进的模型(带多尺度令牌聚合的纯 ViT)"喂专门的医学数据 + 定制训练流程",让模型彻底 "看懂医学影像",学到能精准分割器官 / 肿瘤的核心能力
领域自适应预训练:模型原本在十亿级自然图像上学会了 "识别边缘、纹理、形状" 等通用能力;现在用 CT-3M 的医学数据接着训练,让模型把通用能力 "转化为医学专用能力"。核心目的是缩小 "自然图像" 和 "医学图像" 的领域差距,让模型的特征提取能力适配医学场景。
训练方法:不是一次性训练到底,而是分 3 步 "循序渐进优化",每一步有明确目标
- Stage 1:基础迁移:用 DINOv2 的经典损失函数,让模型先把自然图像学到的 "全局 + 局部特征" 迁移到医学领域,比如让模型先学会 "CT 图里哪些像素属于同一器官"(全局一致性)、"相邻的 CT 补丁是什么关系"(局部对应);
- Stage 2:稳定细节(可选):加入 "Gram 锚定" 机制,防止模型训练时 "只关注整体,忽略局部细节"(比如只认出肝脏大致位置,看不清边缘)。但论文发现,在 CT-3M 数据上训练时,局部细节没那么容易退化,所以这一步提升不大;
- Stage 3:适配高分辨率:用更高尺寸的 CT 图(比如 512×512、768×768)训练,让模型适应医学分割需要的 "细粒度细节"(比如肿瘤的微小凸起、器官的细微边缘),这一步能直接提升分割精度。
学习鲁棒的密集特征:分割任务需要 "像素级精准识别"(每个像素都要判断属于哪个器官 / 肿瘤),所以模型要学的不是 "整幅图是什么",而是 "每个像素的特征";面对不同患者的 CT 图(有的清晰、有的模糊,有的病灶大、有的小),模型都能准确识别特征,不会因为图像略有差异就判断失误。
MACMD: Multi-dilated Contextual Attention and Channel Mixer Decoding for Medical Image Segmentation
MACMD:基于多空洞上下文注意力与通道混合器解码的医学图像分割方法
理解
MACMD 是一种专门为医学图像分割设计的方法,核心靠 "多空洞上下文注意力" 和 "通道混合器解码" 两大技术,解决医学影像中 "局部细节易丢、全局结构难抓" 的痛点,实现器官、肿瘤等目标的精准分割。
多空洞上下文注意力:
- 多空洞是一种特殊卷积方式,用 4 种不同 "扩张率"(1、2、3、5)的卷积并行计算。就像用不同倍数的放大镜看图像,既能看清小病灶(如微小肿瘤),又能覆盖大器官(如肝脏)的整体范围,不用增加计算量就能扩大 "视野"。
- 上下文注意力:给图像加 "智能筛选",模型会自动判断哪些区域重要(如器官边界、病灶),哪些是噪声(如影像干扰),重点关注关键区域,忽略无用信息。
- 组合作用:让模型既能 "看全局"(覆盖大器官),又能 "抓细节"(定位小病灶),还能自动筛选关键信息,解决医学影像 "结构复杂、目标大小不一" 的问题。
通道混合器解码:
- 通道:模型看图像的 "不同维度"------ 有的通道看边缘,有的看纹理,有的看语义
- 通道混合器:把这些不同维度的特征 "打通融合",比如把 "肝脏边缘特征" 和 "肝脏语义特征" 结合,避免特征孤立。而且它用高效的线性投影替代复杂计算,兼顾速度和效果。
- 解码:模型的 "输出环节"------ 把融合后的高级特征,转化为最终的分割掩码(就是给器官 / 肿瘤画边界的黑白图),相当于把 "模型看懂的信息" 变成 "医生能直接用的分割结果"。
医学图像分割有两个核心痛点:
- CNN(卷积神经网络)能抓局部细节,但看不清全局结构(比如不知道小病灶在肝脏的哪个位置);
- Transformer 能抓全局结构,但容易丢局部细节(比如看不清肿瘤的微小边缘),还特别费算力;
- 模型浅层的细粒度细节(如器官边缘)会在深层传播中丢失,且不同维度的特征融合得不好。
MACMD 的解决方案就是:
- 用 "多空洞上下文注意力" 补全 "全局视野 + 局部精准",兼顾大器官和小病灶;
- 用 "通道混合器解码" 高效融合不同维度特征,避免细节丢失和特征孤立;
- 整体优化了解码器结构,还升级了跳跃连接(让浅层细节能直接传到深层),最终实现 "精准 + 高效" 的分割 ------ 既比传统方法准,又比复杂模型快,适合临床使用。
摘要
由于解剖结构存在个体差异,医学图像分割面临诸多挑战。卷积神经网络(CNNs)虽能有效捕捉局部特征,却难以建模长距离依赖关系;Transformer 通过自注意力机制缓解了这一问题,但缺乏保留局部上下文信息的能力。当前最优模型多采用编码器 - 解码器架构并取得了显著成效,但仍存在两大核心局限:(1)靠近输入的浅层网络能捕捉细粒度细节,然而数据在向深层传播过程中会出现信息丢失;(2)编码器与解码器阶段之间的局部细节和全局上下文融合效率低下。
为解决上述问题,我们提出基于 MACMD 的解码器。该解码器通过跳跃连接增强注意力机制,并促进编码器与解码器之间的通道混合。其设计融合了层级化空洞卷积、注意力驱动调制与跨通道混合模块,在捕捉长距离依赖关系的同时,保留了医学图像精准分割所需的局部上下文细节。我们在二分类分割与多器官分割任务中,结合多种 Transformer 编码器对该方法进行了评估。实验结果表明,该方法在 Dice 相似系数(Dice score)和计算效率方面均优于当前最优方案,凸显了其在实现精准、鲁棒分割性能上的有效性。相关代码已开源,地址为:https://github.com/lalitmaurya47/MACMD。
理解1
当前最优模型多采用编码器 - 解码器架构并取得了显著成效,但仍存在两大核心局限:(1)靠近输入的浅层网络能捕捉细粒度细节,然而数据在向深层传播过程中会出现信息丢失;(2)编码器与解码器阶段之间的局部细节和全局上下文融合效率低下。
虽然编码器 - 解码器架构是目前医学图像分割的主流(比如 U-Net、TransUNet 这类常用模型都用它),但还没解决两个关键问题 ------细节传着传着丢了 和局部与全局信息没融合好,最终影响分割的精准度。
编码器 - 解码器:先提炼特征,再生成结果
- 编码器:负责 "看图像、提特征"------ 从输入的医学影像(CT / 超声等)中,一层层提取信息,浅层(靠近输入的前几层)抓 "细粒度细节"(比如器官边缘、微小病灶、纹理),深层(后面的层)抓 "全局上下文"(比如 "这是肝脏""肿瘤在肝脏左叶" 这种语义信息)
- 解码器:负责 "画边界、生结果"------ 把编码器提取的特征,还原成和原图一样大的分割掩码(就是给器官 / 肿瘤描边的黑白图)。
局限:
- 浅层的细粒度细节,在深层传播中丢了:编码器的浅层能精准捕捉到医学影像的 "小细节"------ 比如超声里乳腺结节的微小边缘、CT 里胰腺的细小轮廓、皮肤 lesion 的细微纹理。但这些细节在通过一层又一层网络向深层传递时,会被逐渐 "过滤掉";核心原因:深层网络的目标是提炼 "全局语义"(比如 "这是结节"),会自动忽略部分 "局部细节"(比如结节边缘的锯齿状纹理),导致深层输出的特征里,细节信息变少
- 编码器与解码器之间,局部细节和全局上下文融合得不好:编码器已经提炼出了 "局部细节"(比如 "这个像素是肝脏边缘")和 "全局上下文"(比如 "肝脏在腹部的位置,旁边是胃和胆囊"),但在把这些特征传给解码器时,两者没有被高效整合 ------ 要么只用到了局部细节(导致分割的区域 "没章法",比如把肝脏旁边的脂肪误判为肝脏),要么只用到了全局上下文(导致分割边界粗糙,比如把不规则的肿瘤描成了圆形);核心原因:编码器和解码器之间的 "连接通道"(比如 U-Net 的跳跃连接)太简单,大多是 "直接拼接特征",没有专门处理 "局部细节该怎么对应全局结构"
理解2
我们提出基于 MACMD 的解码器。该解码器通过跳跃连接增强注意力机制,并促进编码器与解码器之间的通道混合。其设计融合了层级化空洞卷积、注意力驱动调制与跨通道混合模块,在捕捉长距离依赖关系的同时,保留了医学图像精准分割所需的局部上下文细节。
MACMD 解码器是专门针对医学分割痛点设计的 "精准融合工具"------ 通过优化跳跃连接、整合三大核心技术,既解决 "长距离依赖抓不住" 的问题,又避免 "局部细节丢得多" 的缺陷,最终实现精准分割。
跳跃连接的 "升级改造":跳跃连接不再是简单的 "特征搬运工",而是被赋予了两个关键功能,直接针对之前的两大痛点:
- 增强注意力机制:跳跃连接在传递特征时,会自带 "智能筛选"------ 用注意力机制判断哪些浅层细节(如器官边缘、微小病灶)是有用的,哪些是噪声,只把关键细节传给解码器,解决 "浅层细节传着传着丢了" 的问题;
- 促进通道混合:编码器的 "全局语义特征"(如 "这是肝脏")和解码器的 "局部细节特征"(如 "肝脏边缘的纹理"),会通过跳跃连接实现 "通道互通"
三大核心技术:
- 层级化空洞卷积:解决 "长距离依赖抓不住"
- 用不同 "扩张率"(比如 1、2、3、5)的卷积并行计算,既能看清相邻像素的局部关系(小放大镜),又能覆盖大器官的全局范围(大放大镜);
- 核心作用:不用增加计算量,就能扩大模型的 "视野",让模型捕捉到图像中相距较远的像素关联(比如肿瘤和周围血管的位置关系),弥补 CNN 长距离依赖建模差的短板。
- 注意力驱动调制:解决 "关键特征分不清"
- 模型会自动给重要特征(如病灶区域、器官边界)加高分,给噪声特征(如影像干扰、背景)加低分,强化有用信息,抑制无用信息;
- 核心作用:让模型在处理特征时 "有的放矢",不会因为特征太多而混淆,尤其适合医学影像中 "有用信息占比低、噪声多" 的场景
- 跨通道混合模块:解决 "特征融合不充分"
- 模型的不同通道分别对应边缘、纹理、语义等不同特征,这个模块会把这些通道的特征打通、混合,避免特征孤立;
- 核心作用:比如把 "肝脏的边缘特征" 和 "肝脏的语义特征" 深度融合,让解码器既能知道 "这是肝脏"(全局),又能精准画出肝脏的边缘(局部),避免 "结构对但细节差" 的问题。
这三个技术 + 优化后的跳跃连接,形成了 "1+1+1>3" 的效果:
- 捕捉长距离依赖:靠 "层级化空洞卷积",让模型看清大器官的全局结构、远距离的解剖关联(比如胆囊和肝脏的位置关系);
- 保留局部上下文细节:靠 "注意力驱动调制"(筛选细节)和 "跨通道混合模块"(融合细节),让模型不丢器官边缘、微小病灶等关键局部信息;
- 最终满足医学分割的核心需求:既不会因为只抓全局而导致边缘模糊、漏小病灶,也不会因为只抓局部而导致结构混乱、定位不准,实现 "精准描边"。