【技术追踪】Dino U-Net:利用基础模型中的密集特征进行医学图像分割(MICCAI-2026)

  DINOv3 杀入医学图像分割了!


论文:Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation

代码:https://github.com/yifangao112/DinoUNet


0、摘要

  大规模预训练视觉基础模型 的兴起,为医学图像分割 任务带来了极具潜力的研究范式(迁移?微调?)。但如何将这类模型丰富、通用的表征有效迁移至特定临床领域任务,仍是一大难点。(当前困难)

  本文提出一种全新的编解码架构 Dino U-Net,该架构可充分利用 DINOV3 基础模型输出的高保真稠密特征,完成医学图像分割任务。

  本文将冻结权重的 DINOV3 主干网络作为编码器,并设计双分支 DINO Adapter ,用于弥合不同特征域之间的差异。为缓解特征降维过程中细粒度信息的丢失问题,本文进一步提出保真度感知投影模块(Fidelity-Aware Projection Module,FAPM)。该模块结合低秩共享投影与动态特征调制机制,对特征进行精细化修正,并将特征完整、保真地传递至解码器端。

  本文在七组公开医学图像数据集上开展大量实验,结果表明:Dino U-Net 在多种成像模态下均达到当前最优性能,在区域分割精度与边界勾勒效果上表现突出;同时,随着主干网络参数量提升至 70 亿,模型分割性能可实现持续提升,验证了该框架具备优异的扩展性。


1、引言

1.1、研究意义与当前挑战

  (1)医学图像分割意义重大,U-Net 系当前主流方法,效果可靠。(研究背景,面向医学图像分割)

  (2)SAM 偏重几何轮廓,弱于语义和边界模糊场景;DINOv3 侧重语义密度,能提供高保真特征,更适合医学图像。(好奇这种偏好是怎么体现的)

  (3)本文提出 Dino U-Net,一种新型混合架构,旨在充分挖掘 DINOv3 丰富而密集的特征用于医学图像分割。(SAM 不香了啊)

1.2、本文贡献

  (1)提出 Dino U-Net 新架构,以冻结的 DINOv3 主干为编码器,与 U-Net 解码器结合;

  (2)设计保真度感知投影模块(FAPM),在降维的同时维持高保真度;

  (3)在七个公开数据集上开展大量实验,证明本方法取得了当前最优性能 ,且在多种模态上泛化能力强

  (4)验证了本方法具有良好的可扩展性,随着主干模型规模增大,性能持续提升;


2、相关工作

  (1)医学图像分割: U-Net 是医学分割的基准架构,各类变体持续优化,近年来 U-Mamba 和 U-KAN 进一步引入状态空间模型与可学习激活函数,以捕获长程依赖关系。

  (2)基于基础模型的医学图像分割: 医学数据有限制约了从头训练的泛化性,故需借助基础模型。SAM 系列由于显著的领域差异,在医学图像上的表现往往需要大量微调。DINOv3 提供高保真特征,即便不经微调,其性能也不逊于专用网络,但其在医学分割中的潜力尚待开发,本文据此提出 Dino U-Net。

  (3)DINOv3 基础: 视觉基础模型泛化能力强,DINOv3 作为自监督 ViT ,通过无标注自然图像学习,能获取全面的视觉理解。DINOv3 通过专门设计克服了特征退化问题,生成高保真密集特征,在空间理解任务上表现优异,为医学分割提供了强大支撑。


3、方法

3.1、Dino U-Net 的概述

  如 图 1 所示,Dino U-Net 采用编码器-解码器设计。编码器由冻结的 DINOv3 主干网络双分支 DINO Adapter 以及 保真感知投影模块(FAPM) 构成。

  在前向传播过程中,Adapter 通过两个分支并行处理输入,以高效弥合领域差异:空间先验分支 捕获高分辨率几何纹理,语义分支 从冻结的 DINOv3 中提取深层表征。在每个交互阶段,可变形交叉注意力机制利用空间分支的几何线索,选择性融合 DINOv3 中相关的语义内容。

  这种多阶段深度融合产生层次化特征图,在空间敏锐度与语义深度 之间达到理想平衡。随后,这些特征图经 FAPM 精炼,生成高保真表征,并通过跳跃连接传递至 U-Net 解码器,以逐步恢复空间分辨率并最终生成 mask。

  

**Figure 1 | Dino U-Net 的架构概述:**该编码器由冻结版 DINOv3 主干网络、DINO Adapter 以及保真度感知投影模块(FAPM)组成,并与标准 U-Net 解码器相连。

3.2、保真感知投影模块

  DINO Adapter 会在高维 DINOV3 特征空间中生成语义信息丰富的多尺度特征 F F F,该特征通道维度与标准 U-Net 解码器不匹配。常规投影方式(如线性层、 1 × 1 1\times1 1×1 卷积)在降维时往往会丢失细粒度细节,造成特征保真度下降。针对该问题,本文提出保真感知投影模块(FAPM),在实现维度压缩的同时完整保留特征信息(见 图 2)。

  

Figure 2 | 保真感知投影模块(FAPM)整体结构:输入特征图首先被解耦为任务专属分支共享分支 ;调制因子生成单元依托共享特征,对专属特征完成动态校正。校正后的特征依次经过细化支路 P r e f i n e P_{refine} Prefine 处理,再与捷径支路 P s h o r t c u t P_{shortcut} Pshortcut 的输出融合,最终生成高保真特征输出。

  FAPM 首先通过双分支结构对输入特征 F F F 进行解耦:配置低秩共享权重的共享卷积分支(通道维度设为 256)提取跨尺度上下文特征 F s h a r e F_{share} Fshare,专属卷积分支则捕获对应尺度独有的空间细节特征 F s p e F_{spe} Fspe。随后将 F s h a r e F_{share} Fshare 送入调制因子生成单元(轻量化 1 × 1 1\times1 1×1 卷积),得到两个空间自适应参数:缩放因子 α \alpha α 与偏移因子 β \beta β。

  利用上述参数对专属特征 F s p e F_{spe} Fspe 执行仿射变换,具体操作为将 F s p e F_{spe} Fspe 与 α \alpha α 逐元素相乘后再加 β \beta β。该操作能够增强局部细节,最终得到调制后特征 F m o d F_{mod} Fmod,计算公式如下:

F m o d = F s p e ⊙ α + β (1) F_{mod} = F_{spe} \odot \alpha + \beta \tag{1} Fmod=Fspe⊙α+β(1)  式中 ⊙ \odot ⊙ 代表逐元素乘法运算。

  调制特征 F m o d F_{mod} Fmod 经由两条支路完成特征融合处理:细化支路 P r e f i n e P_{refine} Prefine 采用深度可分离卷积与压缩激励(SE)模块优化局部细节 ;捷径支路 P s h o r t c u t P_{shortcut} Pshortcut 通过卷积完成通道对齐,同时保留原始特征流形 。最终高保真输出特征 F ′ F' F′ 计算公式如下:

F ′ = P r e f i n e ( F m o d ) + P s h o r t c u t ( F m o d ) (2) F' = P_{refine}(F_{mod}) + P_{shortcut}(F_{mod}) \tag{2} F′=Prefine(Fmod)+Pshortcut(Fmod)(2)  该特征随后通过跳跃连接送入 U-Net 解码器,助力高分辨率分割掩码重建。


4、实验与结果

(1)数据集

  为全面验证本文所提 Dino U-Net 模型的有效性与泛化能力,本文在七个公开数据集 上开展大量实验。所选数据集覆盖医学图像分割领域各类典型难点场景,包含多种成像模态(例如,磁共振成像、超声检查、内镜检查)、多种解剖靶点以及不同病理类型。各数据集的详细特征列于 表 1 中。

  

Table 1 | 用于评估的七个公开数据集摘要:

(2)对比方法与评价指标

  本文设置四种不同主干参数量规格的 Dino U-Net 变体(S、B、L、7B),与七种当前主流基线模型开展对比实验,基线模型分为三类:基于 CNN 的网络架构(nnU-Net、SegResNet、UNet++)、近年基于 Mamba/KAN 的模型(U-Mamba、U-KAN)、以及基础模型适配方案(Swin U-Mamba、SAM2-UNet)。

  采用 Dice 、HD95 衡量分割精度;同时统计有效参数量,评估模型运算效率与扩展性。采用 Wilcoxon 符号秩检验判断结果统计学显著性,显著性阈值设置为 p < 0.05 p<0.05 p<0.05。

(3)实施细节

  本文基于 PyTorch 完成模型搭建,预处理、数据增强、滑动窗口推理流程均严格沿用 nnU-Net 默认管线。数据集按照 8:2 比例随机划分为训练集与测试集。

  模型采用 Dice 损失与交叉熵损失的组合损失函数进行训练,优化器选用 Adam,初始学习率设置为 1 × 10 − 3 1\times 10^{-3} 1×10−3,并采用多项式衰减策略调整学习率。训练在 NVIDIA H100 显卡上完成,总迭代轮次为 200 轮,每轮包含 250 次迭代。

(4)实验结果

  

**Table 2 | 七种医学数据集分割性能对比:**指标采用戴斯相似系数(Dice,单位 %)与 95% 豪斯多夫距离(HD95)。Dice 指标数值越高性能越优(↑),HD95 指标数值越低性能越优(↓)。本文 Dino U-Net 各变体结果中,优于最优基线的数值加粗显示,优于次优基线的数值添加下划线标注。

  

**Table 3 | 整体效率与平均性能:**模型效率采用有效参数量(Params)作为衡量指标。加粗字体代表最优结果;红色字体代表相较于最优基线取得的性能提升幅度。

  

**Figure 3 | 七个测试数据集典型样本分割结果定性对比:**图中每一行对应一个不同数据集(从上至下依次为:Kvasir-SEG、BUSI、CellBinDB、PROSTATEx-Seg-Zones、Drishti-GS、MyoPS20、m2caiSeg);各列依次展示不同对比方法的分割结果、本文所提模型(Dino U-Net 7B)预测结果以及真实标注(GT)。

  

**Table 4 | 保真感知投影模块(FAPM)消融实验:**针对不同规模的模型,本表统计引入 FAPM 模块后参数量相对变化量( Δ P a r a m s \Delta \mathrm{Params} ΔParams)、Dice 系数变化量( Δ D i c e \Delta \mathrm{Dice} ΔDice)、HD95 指标变化量( Δ H D 95 \Delta \mathrm{HD95} ΔHD95)。符号 ↑ \uparrow ↑ 代表指标数值越高性能越优,符号 ↓ \downarrow ↓ 代表指标数值越低性能越优。


  DINOV3 用起来啊!