【论文学习】一种用于医学图像分割单源域泛化的混合双增强约束框架 || 视觉 Transformer 在通用图像分割中的 “缺失环节”

A hybrid dual-augmentation constraint framework for single-source domain generalization in medical image segmentation

一种用于医学图像分割单源域泛化的混合双增强约束框架

理解

单源域泛化：

单源：只靠一个数据源（比如某家医院的 MRI 数据）训练模型，不用收集多个医院、多种设备的数据集
泛化：模型训练后，能直接用到 "没见过" 的目标域数据（比如另一家医院的 CT 数据、不同扫描序列的 MRI 数据），不会因为数据风格变化就分割不准

混合双增强：核心是通过两种非对称的增强方式，给单源数据造 "多样化但不跑偏" 的样本，解决医学图像 "风格变化少" 的痛点

双增强：分两个视图做增强，且方式不同（非对称）

视图 1：常规强度增强（比如调对比度、锐度），保证基础多样性，不破坏图像结构。
视图 2：专门设计的 "全局 - 局部风格增强（GLS）"，通过随机卷积（改局部纹理）+ 全局风格迁移（调通道均值 / 方差），生成可控的风格变体（比如模拟不同设备的扫描风格），但不改变器官的解剖结构。

混合：不仅做 "图像级" 增强（改原始图像），还在视图 2 加 "特征级" 扰动（比如通道 dropout），进一步扩大样本差异，同时平衡两个视图的学习难度。

约束框架：通过两个约束规则，从增强后的多样样本中，学到 "不依赖单源风格、通用的语义特征"，解决医学图像 "类间差异小、解剖结构相似" 的痛点：

约束 1：对象聚焦一致性（针对 "类间差异小"）。聚焦分割的核心区域（比如器官本身和周围模糊组织），强制两个视图中对应位置的特征一致。避免模型被背景噪声干扰，确保不管样本风格怎么变，核心器官的特征不变。
约束 2：跨个体约束（针对 "解剖结构相似"）。利用人体器官结构相似的特点，让模型学习不同患者的同类器官 "共通特征"（比如肝脏的形状、相对位置），而非单个患者的专属特征，这样模型能适配更多未知患者的数据。

摘要

医学图像分割中的单源域泛化具有广阔的临床应用前景，但面临域偏移问题。学习域不变特征是抵御域偏移的关键，现有数据增强和域不变特征学习方法均在隐式或显式地追求这一目标。尽管这些方法已取得一定成效，但结合医学图像特性、充分且显式的特征学习仍有待探索。基于医学图像存在的风格变化有限、类间差异小及解剖结构相似等特性，本文提出一种混合双增强约束框架（DCON），以实现高效的域不变特征学习。该框架的双视图非对称增强策略采用多样化的图像级和特征级扰动，包括一种具备可控性的全局 - 局部风格增强；双层对比学习则同时施加两项约束 ------ 双视图间的对象聚焦一致性约束与图像间的跨个体约束，从而捕捉不变语义特征。在三类单源域泛化数据集上的实验表明，DCON 的性能优于现有先进方法。相关源代码已开源，地址为：https://github.com/wrf-nj/DCON。

理解1

学习域不变特征是抵御域偏移的关键，现有数据增强和域不变特征学习方法均在隐式或显式地追求这一目标。

域偏移：源域（训练数据，比如 A 医院的 MRI）和目标域（测试数据，比如 B 医院的 CT）因为设备、扫描参数、患者群体不同，导致数据 "风格 / 分布不一样"。

域不变特征：不被 "域偏移" 干扰的、数据的 "核心本质特征"。对医学图像来说，就是器官的解剖结构（比如肝脏的形状、相对位置、与周围器官的关系），而不是图像的纹理、亮度、对比度这些 "表面风格特征"。

现有两类方法：数据增强和域不变特征学习方法

数据增强的核心是给训练数据 "造多样性"（比如调对比度、加噪声），它不直接去 "提取不变特征"，但能间接帮模型学到不变特征。
域不变特征学习方法是直接在 "特征空间" 里做操作，强制模型提取不变特征。

理解2

该框架的双视图非对称增强策略采用多样化的图像级和特征级扰动，包括一种具备可控性的全局 - 局部风格增强；双层对比学习则同时施加两项约束 ------ 双视图间的对象聚焦一致性约束与图像间的跨个体约束，从而捕捉不变语义特征。

通过 "两种不同维度的增强造多样样本"+"两种互补约束提核心特征"，让模型学到不随数据风格变化、只反映器官本质的不变特征

双视图非对称增强：核心目的是解决医学图像 "风格变化有限" 的问题 ------ 既不能让样本风格太单一（模型学偏），也不能增强过度（打乱器官结构），所以用 "双视图 + 非对称" 的方式造样本

双视图：给同一张输入医学图像（比如某患者的 MRI），做两种不同的增强，得到两个 "表面不一样、核心器官不变" 的样本

非对称：两个视图的增强方式完全不同，且只在其中一个视图加 "特征级修改"，避免样本冗余，最大化多样性

图像级扰动是直接修改原始图像，两个视图各有侧重
1. 视图 1：常规强度增强（比如调对比度、锐度、亮度）
2. 作用：保证基础多样性，不破坏图像结构，是医学图像分割的常用预处理。
3. 视图 2：全局 - 局部风格增强（GLS，论文核心创新）
4. 作用：专门解决医学图像 "风格少" 的痛点，生成 "可控且不跑偏" 的风格变体。
特征级扰动：只给视图 2 "加难度"，平衡学习节奏
1. 给 GLS 增强后的视图 2，额外加 "通道 dropout"（随机让部分特征通道失效）。
2. 作用：进一步扩大两个视图的差异，同时平衡难度
3. 视图 1 是 "简单增强"，视图 2 是 "风格增强 + 特征扰动"，避免模型偏科，让后续约束学习更有效。

双层对比学习：核心目的是从多样化样本中，筛选出 "不依赖单源风格、只反映器官本质" 的特征，对应医学图像 "类间差异小" 和 "解剖结构相似" 的特性，用两个约束共同作用

约束 1：对象聚焦一致性约束（解决 "类间差异小"）
1. 痛点：医学图像中，要分割的器官（比如前列腺）和周围组织的差异很小，边界模糊，模型容易盯错区域。
2. 做法：强制两个视图中 "核心区域" 的特征保持一致：先找核心区域：用标注（Ground Truth）和模型预测结果，定位出 "真正的器官区域" 和 "模型预测错的模糊区域"（比如器官边缘）；施加约束：让视图 1 和视图 2 中，这些核心区域的像素特征必须相似（用余弦相似度计算）
3. 作用：引导模型忽略背景噪声，只盯着器官本身和关键模糊区域，不管样本风格怎么变，核心器官的特征都不变。
约束 2：跨个体约束（解决 "解剖结构相似"）
1. 痛点：单源数据只有一个医院 / 设备的样本，模型容易学到该数据源的 "专属特征"（比如某医院 MRI 的纹理），而非人体器官的 "通用特征"。
2. 做法：利用 "所有人的同类器官结构相似"（比如所有人的肝脏位置大致固定），让不同患者的同类器官特征聚在一起。造特征池：把两个视图的样本特征合并，按 "预测正确 / 错误" 分成 "易区分" 和 "难区分" 两类像素；选锚点像素：从两类中随机选部分像素当 "参考点"（锚点）；施加约束：让锚点和 "同类别其他患者的像素特征" 靠近，和 "不同类别像素特征" 远离。
3. 作用：让模型学到跨患者的通用语义特征（比如肝脏的形状、与肾脏的相对位置），而非单源数据的风格特征，提升对未知目标域（比如其他医院 CT）的泛化能力。

对象聚焦一致性：保证 "单样本内部"------ 同一器官在不同风格下特征一致；跨个体约束：保证 "多样本之间"------ 不同患者的同类器官特征一致；最终：模型学到的特征，既不依赖单源风格，也不被个体差异干扰，只反映器官的本质属性

The Missing Point in Vision Transformers for Universal Image Segmentation

视觉 Transformer 在通用图像分割中的 "缺失环节"

理解

视觉 Transformer（ViT）在通用图像分割中，能生成高质量的物体掩码（"画得准"），但严重欠缺精准的掩码分类能力（"分不清"）------ 这一短板导致模型整体性能远未达到上限，是制约通用分割效果的关键缺口。

通用图像分割的核心是 "两步走"：先给图像中的物体画轮廓（生成掩码），再给每个轮廓贴标签（分类，比如 "建筑""植被""车"）。

视觉 Transformer 的 "缺失环节" 就是第二步 ------掩码分类能力不足：现有 ViT-based 模型（如 Mask2Former、InternImage）能通过自注意力捕捉全局信息，生成轮廓精准、边界完整的高质量掩码，但给这些掩码贴标签时，经常 "认错"，尤其在复杂场景下表现拉胯。

摘要

图像分割仍是计算机视觉领域的一项具有挑战性的任务，要求实现鲁棒的掩码生成与精准的分类。近年来基于掩码的方法通过捕捉全局上下文信息生成了高质量的掩码，但对这些掩码进行精准分类 ------ 尤其是在边界模糊和类别分布不均衡的场景下 ------ 仍是一个亟待解决的难题。在本研究中，我们提出了 ViT-P，这是一种新颖的两阶段分割框架，将掩码生成与分类解耦。第一阶段采用提案生成器生成与类别无关的掩码提案，第二阶段则利用基于视觉 Transformer（ViT）构建的点基分类模型优化预测结果。ViT-P 可作为无需预训练的适配器，能够整合各类预训练视觉 Transformer 且无需修改其架构，确保了对密集预测任务的适配性。此外，我们还证明，粗标注与边界框标注能够有效提升分类性能，且无需在精细标注数据集上进行额外训练，在保持高性能的同时降低了标注成本。我们在 COCO、ADE20K 和 Cityscapes 数据集上开展了大量实验，验证了 ViT-P 的有效性：该方法在 ADE20K 全景分割任务中取得 54.0 的 PQ 值，在 Cityscapes 语义分割任务中达到 87.4 的 mIoU 值，在 ADE20K 语义分割任务中实现 63.6 的 mIoU 值，均刷新了当前最优性能。相关代码与预训练模型已开源，地址为：https://github.com/sajjad-sh33/ViT-P。

理解1

第一阶段采用提案生成器生成与类别无关的掩码提案，第二阶段则利用基于视觉 Transformer（ViT）构建的点基分类模型优化预测结果。ViT-P 可作为无需预训练的适配器，能够整合各类预训练视觉 Transformer 且无需修改其架构，确保了对密集预测任务的适配性。

通过 "两阶段分离优化 + 轻量适配器复用预训练模型"，既解决 "掩码分类不准" 的痛点，又保证使用灵活性。

之前的分割模型是 "生成掩码 + 分类" 绑在一起的，结果就是"轮廓画得好，分类却容易错"

ViT-P 的两阶段是

第一阶段：只负责 "画准轮廓"，不猜类别；
第二阶段：只负责 "精准猜类别"，不画轮廓；

这样两个环节能单独优化，不会互相拖累。

第一阶段：生成 "与类别无关的掩码提案"

提案生成器：就是复用现有成熟的分割模型（比如 OneFormer、InternImage），这些模型已经能生成高质量的物体轮廓（掩码），ViT-P 直接拿来用，不用重新设计。

与类别无关：生成的掩码只标记 "这里有个物体"，但不预判 "这是猫、狗还是建筑"

核心作用：专注于 "画准轮廓"，避免类别判断干扰掩码质量。因为提案生成器已经很成熟，这一步能保证掩码的边界、完整性都足够好，为后续分类打基础。

第二阶段：点基分类模型（聚焦 "关键点"，精准猜类别）

点基分类模型：不拿整个掩码来分类，而是选每个掩码里的 "最高值点"（通常在物体中心，远离模糊边界，语义信息最集中），只通过这个点的特征来判断整个掩码的类别

基于视觉 Transformer（ViT）构建：把选好的 "关键点" 坐标，转换成 ViT 能理解的向量（点嵌入），和图像的像素特征一起输入 ViT，利用 ViT 的全局注意力捕捉 "关键点和整个图像" 的关联，从而精准分类

核心作用：解决 "边界模糊、类别不均衡" 导致的分类不准问题。比如两个物体边界叠在一起，整个掩码的特征会混乱，但中心关键点的特征很纯粹，分类正确率更高。

ViT-P 的核心优势：无需预训练的适配器 ------"插件式" 复用，不改动原有模型

无需预训练的适配器：ViT-P 本身不用单独做大规模预训练，它像一个 "插件"，直接对接已经预训练好的 ViT 模型（比如 DINOv2、MAE）。

整合各类预训练视觉 Transformer 且无需修改其架构：不管是 DINOv2 还是 MAE，只要是 ViT 架构，都能直接和 ViT-P 对接 ------ 不用改预训练模型的任何代码、任何参数，只需要把 ViT-P 的 "点嵌入层" 和 "分类头" 加进去就行。

确保对 "密集预测任务" 的适配性

密集预测任务：指需要给图像每个像素贴标签的任务（比如图像分割），区别于 "给整张图贴一个标签" 的分类任务（比如判断这是猫还是狗）。

ViT-P 怎么适配：

能同时处理多个掩码的分类：一张图可能生成几百个掩码，ViT-P 能一次性接收所有掩码的 "关键点"，并行分类，效率足够高；
点嵌入和像素嵌入维度一致：ViT-P 的点嵌入和 ViT 的像素嵌入（Patch Embedding）维度相同，能一起输入 Transformer encoder，不破坏原有特征结构，保证密集预测需要的空间关联性。

理解2

此外，我们还证明，粗标注与边界框标注能够有效提升分类性能，且无需在精细标注数据集上进行额外训练，在保持高性能的同时降低了标注成本。

不用花大量时间做 "像素级精细标注"，仅用 "粗标注"（大概画物体边界）和 "边界框标注"（画个矩形框圈住物体），就能让模型的分类性能变好，而且不用额外在精细标注的数据集上训练 ------ 既不丢分割精度，又能大幅减少标注的时间和成本。

精细标注（Fine Annotations）：像素级精准标注，比如给医学图像里的肿瘤画轮廓，要精确到每个像素，不能多也不能少。

粗标注（Coarse Annotations）：近似边界标注，不用精确到像素，大概画个区域框住物体就行（比如肿瘤的大致范围）。

边界框标注（Bounding Box Annotations）：只用矩形框圈住物体，标注最简单（比如用鼠标拉个框选中肿瘤）。

标注的核心作用是 "辅助分类"，而非 "辅助画掩码"
1. ViT-P 的 "画掩码"（第一阶段）靠成熟的提案生成器（比如 OneFormer），已经能生成高质量轮廓，不需要精细标注来教它 "怎么画"；
2. 而 "分类"（第二阶段）只需要知道 "物体的大致位置 / 范围"，就能精准判断类别 ------ 边界框能提供 "物体在这"，粗标注能提供 "物体大概长这样"，这两个信息足够模型优化分类，不用像素级精准度。
不用额外训练精细标注数据，直接复用现有标注
1. ViT-P 的训练策略是 "预训练 + 微调"：
2. 预训练：用边界框标注，教模型 "物体的位置和尺度"，建立基础认知；
3. 微调：用粗标注（或少量精细标注），优化分类的细节精度；
4. 整个过程不用额外专门训练 "精细标注数据集"，直接用现有低成本标注就能衔接，避免重复劳动。
输入格式统一，避免域偏移：ViT-P 把 "点坐标" 伪装成 "零宽高的边界框"（比如点 (x,y) 变成 [x,y,0,0]），让边界框、粗标注、精细标注的输入格式一致，模型不用适应不同数据，保证训练和推理的一致性，性能不打折。