【技术追踪】Dino U-Net：利用基础模型中的密集特征进行医学图像分割（MICCAI-2026）

DINOv3 杀入医学图像分割了！

论文：Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation

代码：https://github.com/yifangao112/DinoUNet

0、摘要

大规模预训练视觉基础模型 的兴起，为医学图像分割 任务带来了极具潜力的研究范式（迁移？微调？）。但如何将这类模型丰富、通用的表征有效迁移至特定临床领域任务，仍是一大难点。（当前困难）

本文提出一种全新的编解码架构 Dino U-Net，该架构可充分利用 DINOV3 基础模型输出的高保真稠密特征，完成医学图像分割任务。

本文将冻结权重的 DINOV3 主干网络作为编码器，并设计双分支 DINO Adapter ，用于弥合不同特征域之间的差异。为缓解特征降维过程中细粒度信息的丢失问题，本文进一步提出保真度感知投影模块（Fidelity-Aware Projection Module，FAPM）。该模块结合低秩共享投影与动态特征调制机制，对特征进行精细化修正，并将特征完整、保真地传递至解码器端。

本文在七组公开医学图像数据集上开展大量实验，结果表明：Dino U-Net 在多种成像模态下均达到当前最优性能，在区域分割精度与边界勾勒效果上表现突出；同时，随着主干网络参数量提升至 70 亿，模型分割性能可实现持续提升，验证了该框架具备优异的扩展性。

1、引言

1.1、研究意义与当前挑战

（1）医学图像分割意义重大，U-Net 系当前主流方法，效果可靠。（研究背景，面向医学图像分割）

（2）SAM 偏重几何轮廓，弱于语义和边界模糊场景；DINOv3 侧重语义密度，能提供高保真特征，更适合医学图像。（好奇这种偏好是怎么体现的）

（3）本文提出 Dino U-Net，一种新型混合架构，旨在充分挖掘 DINOv3 丰富而密集的特征用于医学图像分割。（SAM 不香了啊）

1.2、本文贡献

（1）提出 Dino U-Net 新架构，以冻结的 DINOv3 主干为编码器，与 U-Net 解码器结合；

（2）设计保真度感知投影模块（FAPM），在降维的同时维持高保真度；

（3）在七个公开数据集上开展大量实验，证明本方法取得了当前最优性能 ，且在多种模态上泛化能力强；

（4）验证了本方法具有良好的可扩展性，随着主干模型规模增大，性能持续提升；

2、相关工作

（1）医学图像分割： U-Net 是医学分割的基准架构，各类变体持续优化，近年来 U-Mamba 和 U-KAN 进一步引入状态空间模型与可学习激活函数，以捕获长程依赖关系。

（2）基于基础模型的医学图像分割： 医学数据有限制约了从头训练的泛化性，故需借助基础模型。SAM 系列由于显著的领域差异，在医学图像上的表现往往需要大量微调。DINOv3 提供高保真特征，即便不经微调，其性能也不逊于专用网络，但其在医学分割中的潜力尚待开发，本文据此提出 Dino U-Net。

（3）DINOv3 基础： 视觉基础模型泛化能力强，DINOv3 作为自监督 ViT ，通过无标注自然图像学习，能获取全面的视觉理解。DINOv3 通过专门设计克服了特征退化问题，生成高保真密集特征，在空间理解任务上表现优异，为医学分割提供了强大支撑。

3、方法

3.1、Dino U-Net 的概述

如 图 1 所示，Dino U-Net 采用编码器-解码器设计。编码器由冻结的 DINOv3 主干网络 、双分支 DINO Adapter 以及 保真感知投影模块（FAPM） 构成。

在前向传播过程中，Adapter 通过两个分支并行处理输入，以高效弥合领域差异：空间先验分支 捕获高分辨率几何纹理，语义分支 从冻结的 DINOv3 中提取深层表征。在每个交互阶段，可变形交叉注意力机制利用空间分支的几何线索，选择性融合 DINOv3 中相关的语义内容。

这种多阶段深度融合产生层次化特征图，在空间敏锐度与语义深度 之间达到理想平衡。随后，这些特征图经 FAPM 精炼，生成高保真表征，并通过跳跃连接传递至 U-Net 解码器，以逐步恢复空间分辨率并最终生成 mask。

**Figure 1 | Dino U-Net 的架构概述：**该编码器由冻结版 DINOv3 主干网络、DINO Adapter 以及保真度感知投影模块（FAPM）组成，并与标准 U-Net 解码器相连。

3.2、保真感知投影模块

DINO Adapter 会在高维 DINOV3 特征空间中生成语义信息丰富的多尺度特征 F F F，该特征通道维度与标准 U-Net 解码器不匹配。常规投影方式（如线性层、 1 × 1 1\times1 1×1 卷积）在降维时往往会丢失细粒度细节，造成特征保真度下降。针对该问题，本文提出保真感知投影模块（FAPM），在实现维度压缩的同时完整保留特征信息（见 图 2）。

Figure 2 | 保真感知投影模块（FAPM）整体结构：输入特征图首先被解耦为任务专属分支 与共享分支 ；调制因子生成单元依托共享特征，对专属特征完成动态校正。校正后的特征依次经过细化支路 P r e f i n e P_{refine} Prefine 处理，再与捷径支路 P s h o r t c u t P_{shortcut} Pshortcut 的输出融合，最终生成高保真特征输出。

FAPM 首先通过双分支结构对输入特征 F F F 进行解耦：配置低秩共享权重的共享卷积分支（通道维度设为 256）提取跨尺度上下文特征 F s h a r e F_{share} Fshare，专属卷积分支则捕获对应尺度独有的空间细节特征 F s p e F_{spe} Fspe。随后将 F s h a r e F_{share} Fshare 送入调制因子生成单元（轻量化 1 × 1 1\times1 1×1 卷积），得到两个空间自适应参数：缩放因子 α \alpha α 与偏移因子 β \beta β。

利用上述参数对专属特征 F s p e F_{spe} Fspe 执行仿射变换，具体操作为将 F s p e F_{spe} Fspe 与 α \alpha α 逐元素相乘后再加 β \beta β。该操作能够增强局部细节，最终得到调制后特征 F m o d F_{mod} Fmod，计算公式如下：

F m o d = F s p e ⊙ α + β (1) F_{mod} = F_{spe} \odot \alpha + \beta \tag{1} Fmod=Fspe⊙α+β(1) 式中 ⊙ \odot ⊙ 代表逐元素乘法运算。

调制特征 F m o d F_{mod} Fmod 经由两条支路完成特征融合处理：细化支路 P r e f i n e P_{refine} Prefine 采用深度可分离卷积与压缩激励（SE）模块优化局部细节 ；捷径支路 P s h o r t c u t P_{shortcut} Pshortcut 通过卷积完成通道对齐，同时保留原始特征流形 。最终高保真输出特征 F ′ F' F′ 计算公式如下：

F ′ = P r e f i n e ( F m o d ) + P s h o r t c u t ( F m o d ) (2) F' = P_{refine}(F_{mod}) + P_{shortcut}(F_{mod}) \tag{2} F′=Prefine(Fmod)+Pshortcut(Fmod)(2) 该特征随后通过跳跃连接送入 U-Net 解码器，助力高分辨率分割掩码重建。

4、实验与结果

（1）数据集

为全面验证本文所提 Dino U-Net 模型的有效性与泛化能力，本文在七个公开数据集 上开展大量实验。所选数据集覆盖医学图像分割领域各类典型难点场景，包含多种成像模态（例如，磁共振成像、超声检查、内镜检查）、多种解剖靶点以及不同病理类型。各数据集的详细特征列于 表 1 中。

Table 1 | 用于评估的七个公开数据集摘要：

（2）对比方法与评价指标

本文设置四种不同主干参数量规格的 Dino U-Net 变体（S、B、L、7B），与七种当前主流基线模型开展对比实验，基线模型分为三类：基于 CNN 的网络架构（nnU-Net、SegResNet、UNet++）、近年基于 Mamba/KAN 的模型（U-Mamba、U-KAN）、以及基础模型适配方案（Swin U-Mamba、SAM2-UNet）。

采用 Dice 、HD95 衡量分割精度；同时统计有效参数量，评估模型运算效率与扩展性。采用 Wilcoxon 符号秩检验判断结果统计学显著性，显著性阈值设置为 p < 0.05 p<0.05 p<0.05。

（3）实施细节

本文基于 PyTorch 完成模型搭建，预处理、数据增强、滑动窗口推理流程均严格沿用 nnU-Net 默认管线。数据集按照 8:2 比例随机划分为训练集与测试集。

模型采用 Dice 损失与交叉熵损失的组合损失函数进行训练，优化器选用 Adam，初始学习率设置为 1 × 10 − 3 1\times 10^{-3} 1×10−3，并采用多项式衰减策略调整学习率。训练在 NVIDIA H100 显卡上完成，总迭代轮次为 200 轮，每轮包含 250 次迭代。

（4）实验结果

**Table 2 | 七种医学数据集分割性能对比：**指标采用戴斯相似系数（Dice，单位 %）与 95% 豪斯多夫距离（HD95）。Dice 指标数值越高性能越优（↑），HD95 指标数值越低性能越优（↓）。本文 Dino U-Net 各变体结果中，优于最优基线的数值加粗显示，优于次优基线的数值添加下划线标注。

**Table 3 | 整体效率与平均性能：**模型效率采用有效参数量（Params）作为衡量指标。加粗字体代表最优结果；红色字体代表相较于最优基线取得的性能提升幅度。

**Figure 3 | 七个测试数据集典型样本分割结果定性对比：**图中每一行对应一个不同数据集（从上至下依次为：Kvasir-SEG、BUSI、CellBinDB、PROSTATEx-Seg-Zones、Drishti-GS、MyoPS20、m2caiSeg）；各列依次展示不同对比方法的分割结果、本文所提模型（Dino U-Net 7B）预测结果以及真实标注（GT）。

**Table 4 | 保真感知投影模块（FAPM）消融实验：**针对不同规模的模型，本表统计引入 FAPM 模块后参数量相对变化量（ Δ P a r a m s \Delta \mathrm{Params} ΔParams）、Dice 系数变化量（ Δ D i c e \Delta \mathrm{Dice} ΔDice）、HD95 指标变化量（ Δ H D 95 \Delta \mathrm{HD95} ΔHD95）。符号 ↑ \uparrow ↑ 代表指标数值越高性能越优，符号 ↓ \downarrow ↓ 代表指标数值越低性能越优。

DINOV3 用起来啊！