vesselFM: A Foundation Model for Universal 3D Blood Vessel Segmentation

vesselFM：面向通用三维血管分割的基础模型

摘要

三维血管分割是医学图像分析中一项关键但极具挑战性的任务。其难点在于不同成像模态在伪影、血管形态与尺度、信噪比以及背景组织等方面存在显著差异 。这些差异，加之由不同成像协议引起的域间差距，严重限制了现有基于监督学习方法的泛化能力，导致每处理一个新数据集都需要耗费大量精力进行体素级别的标注。尽管基础模型（foundation models）有望缓解这一局限性，但它们通常难以有效泛化到血管分割这一独特而复杂的任务上。在本研究中，我们提出了 vesselFM------一种专为通用三维血管分割任务设计的基础模型。与以往模型不同，vesselFM 能够轻松泛化至未见过的成像域。为实现零样本（zero-shot）泛化能力，我们在三种异构数据源上对 vesselFM 进行训练：一个大规模精心整理的标注数据集、通过域随机化（domain randomization）方案生成的数据，以及从基于流匹配（flow matching）的生成模型中采样的数据。大量实验评估表明，在四种具有（前）临床相关性的成像模态上，vesselFM 在零样本、单样本（one-shot）和少样本（few-shot）场景下均优于当前最先进的医学图像分割基础模型，从而为三维血管分割提供了一种通用解决方案。

1.引言与动机

血管分割在（生物）医学图像分析中是一项具有（前）临床意义的重要任务，因为它在分析、诊断和治疗多种血管相关疾病（如中风、脑动脉瘤、病毒性肺炎、冠状动脉疾病和阿尔茨海默病）中发挥着关键作用。尽管医学图像分析技术不断进步，但在特定任务的成像模态中实现准确且鲁棒的全连接血管网络分割，尤其是在三维（3D）场景下，仍然是一个极具挑战性的问题。这主要源于两个方面：一是血管结构本身具有极其复杂且微小的几何形态；二是不同成像模态和协议所导致的显著域间差异，包括信噪比、血管形态与尺度、成像伪影以及背景组织等方面的巨大变化。这些因素通常阻碍了基于监督学习的深度学习方法在未见过的3D血管数据域上的泛化能力。因此，研究人员和临床医生常常不得不从头开始，耗费大量人力获取手动标注的、体素级别一致的血管分割标签，以分析手头的血管影像。

近年来，基于大规模数据集预训练的图像分割基础模型（foundation models）逐渐兴起，展现出对未知数据分布的强大泛化能力。尽管这类分割基础模型也已进入医学领域，但它们通常难以应对血管网络所特有的复杂挑战。为解决这一局限性，我们提出了 vesselFM ------一种专为通用三维血管分割量身定制的基础模型。我们在三类异构数据源的图像-掩码对上以监督方式训练vesselFM（见图1）。

具体而言，我们首先构建了 Dreal ，据我们所知，这是目前规模最大的3D血管分割标注数据集，涵盖了来自不同生物体多个解剖区域的多种成像模态的真实血管图像。其次，我们通过两类合成数据源 Ddrand 和 Dflow 对 Dreal 进行补充。其中，Ddrand 采用面向3D血管分割任务精心设计的域随机化（domain randomization）策略，旨在全面覆盖3D血管图像的一般域空间；而 Dflow 则通过一种掩码与类别条件约束的流匹配（flow matching）生成模型进行采样，在保留解剖结构合理性的前提下，有效扩展了 Dreal 中的数据分布（见图2）。

基于上述三类数据源构建的 vesselFM 能够学习到高度鲁棒的特征表示，从而在面对未见过的成像域时展现出强大的泛化能力，适用于广泛的临床与科研场景。在大量实验中，我们验证了 vesselFM 在四种具有（前）临床相关性的数据集上，在零样本（zero-shot）、单样本（one-shot）和少样本（few-shot）血管分割任务中均达到当前最先进水平。

我们的主要贡献总结如下：

我们提出了一种面向3D血管分割的通用基础模型，具备零样本泛化能力。通过开源模型权重与代码，我们希望为研究人员和临床医生提供一个开箱即用、性能可靠的工具。
Dreal：我们构建了目前规模最大的3D血管分割数据集，包含经过精细处理的真实3D血管图像及其对应的体素级标注。
Ddrand ：我们提出了一种针对3D血管分割任务量身定制的精细化域随机化策略。
Dflow ：我们将掩码与类别条件约束的流匹配方法引入3D医学图像生成，生成了高保真度且符合解剖结构一致性的图像-掩码对。

图1. vesselFM 在三类异构数据源（Dreal、Ddrand 和 Dflow）的图像-掩码对上以监督方式进行训练，随后以零样本、单样本或少样本的方式应用于新的、未见过的3D血管成像域。
图2. 三类数据源（Dreal 为蓝色系、Dflow 为红色、Ddrand 为灰色）的示意分布。Ddrand 旨在全面覆盖3D血管图像的通用域空间，而 Dflow 则有效拓展了 Dreal 的数据分布。示例图像中的分割掩码以半透明红色显示。

2.相关工作

在本节中，我们讨论与 vesselFM 密切相关的工作，并详细阐述 vesselFM 如何区别于现有文献。

2.1 图像分割基础模型

Segment Anything Model（SAM）的提出催生了一系列面向医学图像分割的 SAM 类基础模型，其中部分已扩展至三维（3D）场景。例如，通用分割模型 SAM-Med3D 在 94 个数据集的组合上进行训练，能够跨解剖结构和成像模态实现泛化，并声称具备对未见任务的零样本迁移能力。相比之下，MedSAM-2 基于更新后的 SAM 2 架构，将 3D 医学图像视为视频序列进行处理，在多种成像模态上实现了当前最先进的性能，同时保持了卓越的泛化能力。VISTA3D 则专门针对 CT 扫描开发，可在高度异质的 CT 图像中分割 127 种结构和病灶，提供开箱即用的高精度结果，并能轻松适应未见过的解剖结构。

然而，在血管分割领域，基础模型的研究仍处于起步阶段。早期工作尝试了在血管数据上预训练后微调的模型、少样本学习方法，以及针对特定模态定制的 SAM 类方法，例如用于 2D OCTA 图像、3D 电子显微镜（vEM）图像和 2D X 射线图像的方法。与 vesselFM 不同，上述所有血管分割方法要么局限于特定成像模态和解剖区域，要么适用范围显著更窄。

2.2 合成医学图像生成

在医学领域，合成数据常被用于缓解数据稀缺问题或增强数据多样性。在此背景下，以扩散模型为代表的深度生成模型已成为生成大量高保真度合成数据的强大工具。然而，若要将扩散模型生成的数据用于分割任务，则必须获得精确配对的图像-掩码对。为应对这一挑战，Med-DDPM 和 SegGuidedDiff 通过在模型输入中按通道拼接分割掩码的方式引入语义条件控制，从而生成符合解剖一致性的图像-掩码对。其中，Med-DDPM 专为 3D 脑部影像合成设计，而 SegGuidedDiff 则在 2D 乳腺 MRI 和腹部 CT 生成方面进行了探索。

域随机化（domain randomization）是另一种有前景的技术：它以半受控方式对前景与背景的强度值及形态特征进行随机化，从而生成多样化的合成图像-掩码对，用于训练对域偏移具有鲁棒性的通用分割模型。SynthSeg 是首个将域随机化策略应用于医学图像分割的工作，能够分割不同分辨率和对比度的脑部 MRI 图像。AnyStar 进一步将 SynthSeg 的理念扩展至 3D 实例分割，适用于星形凸状结构（如细胞核、结节或转移灶）。

在本研究中，我们同时利用深度生成模型 和域随机化策略来丰富训练数据源。具体而言，我们在 Med-DDPM 的基础上引入流匹配（flow matching）机制------该方法已被证明优于传统扩散模型------用于生成具有解剖可控性的血管图像；同时，我们针对 3D 血管分割任务对域随机化方法进行了适配与优化。

表 1. Dreal 数据集概览，包括部分统计数据。我们分别对 x、y、z 轴方向上的平均形状进行了估计。体素大小表示采集时的空间分辨率，patch 数量反映组成 Dreal 的约 128³ 子体积数量。我们还对标注质量进行了评估，重点关注血管连通性与标注精度，并简要概述了各数据集特有的预处理步骤，以确保其符合我们的质量标准。更多细节见补充材料 A。需要注意的是，表中前四个数据集在实验中仅用于评估 vesselFM 在未见域上的泛化性能。

3.数据源生成

我们使用三类异构数据源对 vesselFM 进行训练：1）多样化的真实数据（Dreal），2）域随机化生成的数据（Ddrand），以及 3）从基于流匹配（flow matching）的生成模型中采样的数据（Dflow）。下文将分别详细介绍这三类数据源。

3.1 Dreal：多样化的真实数据

通用基础模型的开发依赖于大规模、高多样性的真实数据集。为此，我们构建了 Dreal = {Xreal, Mreal}，其中包含真实图像 Xreal 及其对应的标注分割掩码 Mreal（数据集概览与统计信息见表1，示例图像见图3）。Dreal 共包含超过 115,000 个尺寸为 128³ 的 3D 图像块（patches），这些数据来自 17 个已标注的数据源，并根据组织类型、成像模态和成像协议进一步划分为 23 个独立数据集。为便于引用，Dreal 中的每个数据集均被赋予一个唯一的类别标签 c ∈ C = {1, ..., 23}（见表1第二列）。

重要的是，Dreal 覆盖了广泛的临床相关成像模态（如 MRA、CTA 和 X 射线）以及前临床研究常用模态（如 vEM、µCTA 和双光子显微镜）。该数据集整合了来自多种生物体（如人、小鼠和大鼠）多个解剖区域（如脑、肾和肝）的血管图像，从而呈现出丰富多样的血管结构与功能特性。此外，我们特意纳入了同一成像模态下的多个数据集，以弥合因不同数据集特异性成像协议（如尺度和对比度差异）所导致的域间差距。

在构建 Dreal 时，我们特别注重仅纳入标注质量达到高标准的数据集。具体而言，我们对每个原始数据集进行预处理，并最终从中提取出目标尺寸（128³）的图像块及其对应的标签。有关预处理的详细信息请参见补充材料 A。据我们所知，Dreal 是迄今为止面向 3D 血管分割任务规模最大的真实数据集。

图3. 来自 Dreal 的 Xreal 图像切片示例。Dreal 包含来自 23 个不同成像模态数据集（类别以红色标注）的 128³ 尺寸血管图像及其体素级匹配标注，涵盖了广泛的解剖区域。

3.2 Ddrand：域随机化

受近期研究的启发，我们探索使用域随机化技术生成大量具有半随机风格的图像-掩码对，并将其统一归类为类别 c=0c=0。下文将详细介绍我们为 3D 血管分割任务量身定制的域随机化策略。图4展示了用于构建 Ddrand = {Xdrand, Msyn} 的域随机化生成流程概览，其具体参数设置详见补充材料 B。

前景生成

为了生成作为前景几何结构的合成掩码，我们使用了 Wittmann 等人提供的 1,137 个尺寸为 25032503 的血管图像块 VV。这些血管块源自腐蚀铸型的图结构表示，能够高度保真地保留 3D 血管典型的血管构筑（angioarchitectural）与形态学特性，且伪影极少，因此为生成逼真的血管图像提供了理想的基础，确保了功能上的真实性。

首先，我们对 VV 应用一系列空间变换 TspatialMTspatialM：

随机选择中心位置裁剪至目标尺寸 12831283；
在三个轴上进行随机翻转和旋转；
为增强模型对血管尺度和密度变化的鲁棒性，进一步施加随机膨胀和随机缩放；
为模拟血管曲率和迂曲度的变化，采用随机弹性形变和二值平滑操作。

经过 TspatialMTspatialM 处理后，可生成丰富多样的逼真血管模式（见图4a）。在本文中，我们将变换后的结果记为 Msyn=TspatialM(V)Msyn=TspatialM(V)。

随后，为模拟真实血管图像中常见的各类前景伪影，我们引入一组精心设计的伪影变换 TartifactM={Tbias field,Tgauss noise,Tgauss smooth,Tdropout,Tshift,Thull,Tidentity}TartifactM={Tbias field,Tgauss noise,Tgauss smooth,Tdropout,Tshift,Thull,Tidentity}（见图4a）。与依次应用的空间变换不同，对于每个处理后的血管块，我们从 TartifactMTartifactM 中随机采样一个伪影变换进行应用。

背景生成

考虑到成像技术、协议、背景组织构成及病理状态的差异会带来极其多样的背景强度模式，我们构建了包含多种纹理和几何结构的背景图像 BB。具体而言，我们设计了三种背景几何结构 GG（见图4a）：

球体：在背景中嵌入互不重叠的球体；
多面体：通过 Voronoi 分割将图像划分为多面体区域；
无结构：不添加任何显式几何结构。

对于背景几何及其整体纹理，我们采用多样化的 Perlin 噪声模式，以准确模拟血管图像中典型的组织纹理。此外，为增加多样性，我们还包含纯背景图像------即从均匀分布 U(0,1)U(0,1) 中随机选取单一强度值填充整个背景。

前景与背景融合

接下来，我们将变换后的掩码 T(Msyn)T(Msyn) 融合到背景图像 BB 中，方式包括体素级的加/减操作，或直接用掩码强度值替换对应位置的背景强度值。

为确保掩码与背景在强度上可区分，我们首先估计背景的平均强度 IBμIBμ，然后为掩码分配强度值 IMIM，使其满足 IM∉[IBμ−δ,IBμ+δ]IM∈/[IBμ−δ,IBμ+δ]（δδ 为预设容差）。

最后，为进一步拓宽融合后图像的域分布，我们施加一系列宽松配置的强度变换 TintensityTintensity，包括：

随机偏置场增强；
添加高斯噪声；
在 k 空间中引入随机局部尖峰；
随机调整图像对比度；
对所有空间维度应用独立或共享标准差 σσ 的高斯平滑；
添加瑞利（Rician）噪声；
引入吉布斯（Gibbs）伪影；
随机高斯锐化；
随机变换强度直方图。

图5.

a) 通过我们提出的掩码与类别条件约束的流匹配生成模型采样合成图像 XflowXflow。图中明确展示了采样过程：将初始噪声样本 x0∼N(0,I)x0∼N(0,I) 映射为目标类别（如类别 21˜）的样本 x1x1，并以二维形式绘制轨迹以增强可视化效果。

b) 从生成模型中采样的 XflowXflow 示例切片。注意：所有切片均基于同一掩码生成，仅改变类别标签。值得强调的是，我们的生成模型能够产出几乎与真实图像难以区分的合成图像（可与图3对比）。

3.3 Dflow：基于流匹配的图像生成

流匹配（Flow Matching）是扩散模型的一种有前景的替代方案 ，在自然图像生成任务中已展现出更优性能。为构建第三类数据源 Dflow={Xflow,Msyn}Dflow={Xflow,Msyn}，我们训练并采样自一个掩码与类别条件约束的流匹配生成模型 FF，旨在以数据驱动的方式进一步扩展 DrealDreal 的分布多样性。

模型 FF 采用一个参数为 θθ 的神经网络，用于学习一个时间依赖的速度场 vθvθ。该速度场通过常微分方程（ODE）将初始噪声样本 x0∼N(0,I)x0∼N(0,I) 映射到目标数据分布中的样本 x1x1：

\(1)

其中 t∈[0,1]t∈[0,1] 表示时间步，cc 为条件类别标签，mm 为条件掩码。

为训练 FF，我们优化条件流匹配（Conditional Flow Matching, CFM）目标函数，即最小化预测速度 vθ(xt,m,c,t)vθ(xt,m,c,t) 与在时间 tt 处采样的真实速度 ut(xt∣x1)ut(xt∣x1) 之间的 L2L2 损失：

\.(2)

我们定义前向过程为线性插值：xt=tx1+(1−t)x0xt=tx1+(1−t)x0，由此可得真实速度为 ut(xt∣x1)=(x1−xt)/(1−t)ut(xt∣x1)=(x1−xt)/(1−t)。这种时间线性的前向过程相比 DDPM 中常用的方差保持扩散噪声调度，能产生更平直的 ODE 轨迹，从而简化推理时的采样过程。

我们在来自前述两类数据源（DrealDreal 和 DdrandDdrand）的图像-掩码对 (x1,m)(x1,m) 及其对应类别 c∈C∪{0}c∈C∪{0} 上训练模型 FF。借鉴解剖结构可控的医学图像生成方法，我们通过沿通道维度拼接掩码 mm 与输入图像 xtxt 来实现掩码条件控制；类别信息则通过将类别嵌入向量加到时间嵌入上，并进一步通过加法注入到中间特征层中。

为生成 DflowDflow，我们最终通过欧拉积分对 ODE (1) 进行离散化采样，得到大量合成图像 XflowXflow（见图5）：

\(3)

其中 NN 为总时间步数。

鉴于 MsynMsyn 已涵盖所需的血管形态多样性，且不含人工标注引入的偏差或错误，我们在采样过程中仅使用来自 MsynMsyn 的掩码 mm。为清晰起见，我们用波浪号（˜）标记由模型 FF 生成的数据类别（例如 7~7~）。

表2. 定量结果。我们在三种任务上将 vesselFM 与当前最先进的医学图像分割基础模型进行比较：零样本、单样本和少样本 3D 血管分割。vesselFM 在四个具有临床（SMILE-UHURA、MSD8）和前临床（OCTA、BvEM）意义的数据集上进行评估，始终以较大优势全面超越所有基线方法。

4.实验与结果

本节详细阐述我们的研究发现，并展示 vesselFM 在三项任务上的性能表现：零样本（zero-shot）、单样本（one-shot）和少样本（few-shot）分割。我们在四个未见过的3D 血管分割数据集上对 vesselFM 进行评估，这些数据集涵盖具有临床意义（SMILE-UHURA、MSD8）和前临床意义（OCTA、BvEM）的不同领域。

在实验设置中，我们从每个评估数据集中提取三个尺寸为 12831283 的图像块，其余数据用于测试与验证（详见补充材料 A）。利用这三个提取的图像块，我们将单样本和少样本分割任务分别定义为：仅使用一个图像块或全部三个图像块对模型进行微调。对于零样本评估，我们直接将模型应用于测试数据，不进行任何微调。该设置模拟了临床场景中高质量标注数据稀缺的实际情况。

我们将 vesselFM 与四种专为 3D 医学图像分割设计的基础模型进行比较：

通用型 3D 血管分割模型 tUbeNet；
针对 CT 设计的 VISTA3D；
两种类 SAM 的通用医学分割模型：SAM-Med3D 和 MedSAM-2。

在实验中，我们刻意排除了用于评估的四个数据集所对应的类别（见表1上半部分），使其不参与 Dreal 和 Dflow 的构建，以确保评估的公平性。

Dflow 的构建通过在单块 RTX A6000 GPU 上运行三天，从生成模型 FF 中采样得到 10,000 对图像-掩码；Ddrand 则通过域随机化生成流程采样了 500,000 对图像-掩码。所有图像-掩码对的尺寸均为 12831283。

vesselFM 的训练综合使用了上述三类数据源，其采样权重大致按数据规模分配：70% 来自 Ddrand，20% 来自 Dreal，10% 来自 Dflow。

我们采用 MONAI 框架中对 Isensee 等人提出的 UNet 架构的重新实现作为分割主干网络。对于流匹配模型中的速度场 vv，我们使用 MedDDPM 中的 UNet 结构。ODE 采样中的总时间步数 NN 设为 100。

遵循医学图像分割领域的常规做法，我们报告 Dice 系数 和 拓扑感知的中心线 Dice（clDice）两项指标。其中 clDice 能有效评估血管结构的管状形态保持性和连通性。更多实验细节请参见补充材料 C。

4.1 定量与定性结果

定量结果见表2。我们发现，专为通用 3D 血管分割设计的基础模型 vesselFM，在所有数据集和所有任务上均大幅超越现有基线模型。

零样本任务 ：

vesselFM 在全部四个数据集上展现出卓越的零样本泛化能力，这些数据集覆盖了多样化的未知领域，甚至包括完全未见过的成像模态（如 OCTA 和 vEM）。值得注意的是，在 MSD8 数据集上，vesselFM 的 Dice 分数比 VISTA3D 高出 5.86 分------尽管 VISTA3D 本身是在包含 MSD8 在内的 11,454 个 CT 体积数据上训练的。这充分体现了 vesselFM 强大的归纳偏置，而这正是得益于我们在三类异构血管数据源上的联合训练。

此外，vesselFM 也优于 tUbeNet（该模型已在四个不同模态的血管数据集上训练）。我们观察到，tUbeNet 在血管与背景组织对比度较低的复杂模态（如 BvEM 和 MSD8）中表现不佳。而通用分割模型 SAM-Med3D 和 MedSAM-2 在零样本设定下几乎无法完成血管分割任务。尤为突出的是，vesselFM 的零样本结果甚至超过了其他基线模型在 SMILE-UHURA 上的少样本结果（无论是 Dice 还是 clDice 指标）。

单样本与少样本任务 ：

对 vesselFM 进行单样本或少样本微调通常能进一步提升分割性能。考虑到部分基线模型所用网络在极少量训练数据下容易过拟合，我们还额外将 vesselFM 与一个相同架构但未经三类数据源预训练的从头训练版本进行了对比（见表2脚注及补充材料 D）。结果显示，若忽略我们提出的三类数据源，Dice 和 clDice 分数均显著下降，从而验证了我们数据策略的有效性。

定性结果与定量结论高度一致。具体而言，vesselFM 展现出出色的零样本泛化能力，且预测结果不受特定标注者偏见的影响（见图6）。

图6. 定性结果（建议放大查看）。我们在 SMILE-UHURA 和 OCTA 数据集上可视化了所有三项任务（零样本、单样本、少样本）的预测结果，并与 VISTA3D、SAM-Med3D 及真实标注掩码进行对比。可见 vesselFM 始终取得当前最优的分割效果，即便在零样本设定下也能出色泛化至未见领域。为便于观察，图中展示了 SMILE-UHURA 数据集上 3D 预测结果的局部放大视图。

4.2 消融研究

我们在 SMILE-UHURA 数据集上对 vesselFM 的设计选择进行消融实验，该任务聚焦于 MRA 图像中的脑血管分割------这在临床中具有重要意义，例如用于动脉瘤等疾病的自动化诊断。所有消融实验均针对零样本分割任务进行，因为零样本泛化能力是分割基础模型最核心的组成部分。

第一，对三类数据源的消融分析 （见表3）

我们分别单独使用 Dreal、Ddrand 和 Dflow 训练 vesselFM，并逐步将 Ddrand 与 Dflow 加入 Dreal 中进行联合训练。更全面的消融实验（涵盖全部四个评估数据集和所有任务）详见补充材料 E。结果显示，在 Dreal 基础上加入 Ddrand 和 Dflow 后，Dice 和 clDice 分数分别显著提升了 9.21 和 11.74。这表明，协同利用我们提出的三类异构数据源，使 vesselFM 能够学习到更具鲁棒性的特征，从而有效支持零样本泛化，为通用 3D 血管分割奠定坚实基础。

第二，对流匹配生成模型 F 的设计选择进行消融 （见表4）

F 是我们提出的掩码与类别条件约束的流匹配生成模型，用于采样构建 Dflow。具体地，我们依次考察以下变体：

在训练 F 时排除 Ddrand（第2行）；
在从 F 采样时使用真实掩码 MrealMreal 而非我们提出的合成掩码 MsynMsyn（第3行）；
移除类别条件控制（第4行）。

随后，我们用相应变体生成的 Dflow 替代原始版本，并重新训练 vesselFM。

排除 Ddrand（即同时移除了类别 c=0c=0）导致 Dice 分数下降 3.42，说明 Ddrand 提供的额外数据多样性与规模有助于 F 生成更丰富的图像，从而提升泛化能力。
若使用真实掩码 MrealMreal（来自 Dreal）替代合成掩码 MsynMsyn，Dice 分数下降 4.54。这一结果支持了我们的设计选择：MsynMsyn 不仅避免了人工标注引入的误差，还提供了更高的形态多样性。
移除类别条件仅导致 Dice 微降 0.10，表明类别信息虽有益但影响相对较小。

最后，我们将基于流匹配的模型 F 与基于扩散的生成模型 Med-DDPM 进行对比（第5行）。F 不仅在定量指标上优于 Med-DDPM（Dice 高出 4.32），在定性效果上也更优（见图7）。具体而言，Med-DDPM 常难以准确捕捉类别特异性伪影，导致合成图像保真度较低（例如图7中类别 22 和 19 所示）。

第三，对 vesselFM 分割主干网络的消融 （见表5）

我们尝试了多种主流医学 3D 分割网络架构，包括基于 Transformer 和基于 ConvNeXt 的模型。实验表明，我们所采用的 UNet 变体在性能上全面优于这些替代方案，这也反映了当前医学图像分割领域的主流趋势。

图7. 我们提出的流匹配生成模型 F（第3行，XflowXflow）与扩散模型 Med-DDPM（第2行）生成图像的定性对比。第1行为对应类别的真实图像（XrealXreal）作为参考。为确保可比性，F 与 Med-DDPM 始终以相同的掩码 mm 为条件。分割掩码以半透明红色显示。
表3. 数据源消融实验结果。

表5. vesselFM 分割模型架构消融实验结果。

5.结论与展望

在本研究中，我们提出了 vesselFM ------一个面向通用 3D 血管分割的基础模型。vesselFM 能够在前所未见的领域中准确分割三维血管结构，其性能显著优于当前最先进的医学图像分割基础模型。我们通过在三类异构数据源（Dreal、Ddrand 和 Dflow）上训练 vesselFM，实现了强大的零样本泛化能力，并在实验中对这些数据源进行了系统性消融验证。

鉴于 vesselFM 在具有（前）临床意义的 3D 血管分割任务上取得了前沿性能，我们期望本工作能为血管相关疾病的机制理解提供新视角，并推动先进诊断工具的发展，最终改善患者诊疗结果（关于临床实用性的进一步讨论见补充材料 F）。

我们建议未来的研究可探索以下方向：

设计针对性的后处理步骤，以进一步提升血管结构的连通性（例如在图结构层面进行优化）；
将 vesselFM 扩展至多类别分割或实例分割任务。

一、"图像-掩码对"是什么？

在医学图像分割任务中，"图像-掩码对"（image-mask pair）指的是：

图像（Image, X）：原始的3D医学影像数据（例如MRA、CTA、µCT等），每个体素（voxel）包含一个强度值（如灰度值），反映组织或血管的成像特性。
掩码（Mask, M）：与图像空间对齐 （即尺寸、坐标完全一致）的二值或语义标签图 ，其中每个体素被标记为"属于血管"（通常为1）或"不属于血管/背景"（通常为0）。这个掩码就是人工或算法生成的分割真值（ground truth）。

因此，一个"图像-掩码对"就是：

一张3D血管图像 + 一张与其逐体素对应的、精确标注了哪些位置是血管的标签图。

为什么这对扩散模型（或流匹配模型）生成数据很重要？

扩散模型（Diffusion Models）或流匹配模型（Flow Matching Models）在用于监督学习（如分割）时，若要生成可用于训练的数据，必须保证：

生成的合成图像（X_syn）具有逼真的外观（如噪声、伪影、对比度等）；
同时拥有一个精确对应的血管结构掩码（M_syn），作为该图像的"正确答案"。

如果只有图像没有掩码，就无法用于训练分割网络；如果掩码与图像不匹配（比如血管位置偏移、形态不符），就会引入错误监督信号，损害模型性能。

所以，论文强调："若要将扩散模型生成的数据用于分割任务，则必须获得精确配对的图像-掩码对 "。

vesselFM 的创新之一正是通过以掩码为条件 （mask-conditioned）的方式训练流匹配生成模型 F，从而确保生成的 X_flow 与输入的 M_syn 严格对应。

二、vesselFM 在方法和架构上还有哪些创新？

除了使用三类异构数据源（Dreal、Ddrand、Dflow），vesselFM 在方法设计 和技术架构上还有以下关键创新：

1. 提出"掩码与类别双重条件约束"的流匹配生成模型（F）

这是核心方法创新。不同于普通生成模型仅生成图像，vesselFM 的生成模型 F 被设计为：

输入条件：
- 掩码 m：作为几何结构先验，通过通道拼接方式注入；
- 类别标签 c：表示目标成像模态/数据集（如"MRA-脑"或"µCTA-肾"），通过嵌入向量加到时间编码中。
输出：生成一张与掩码 m 结构一致、且具有类别 c 所对应成像风格（如噪声、对比度、伪影）的逼真3D图像。

✅ 意义：

确保 Dflow 中每张合成图像都有精准配对的掩码（来自 M_syn）；
实现解剖结构可控 + 模态风格可控的高质量数据增强；
避免了用真实掩码（可能含标注误差）训练生成模型的问题。

2. 精心设计的域随机化策略（Ddrand）

虽然域随机化（Domain Randomization）不是全新概念，但本文针对3D血管分割做了高度定制化设计：

前景（血管）：
- 基于真实的血管拓扑结构（来自腐蚀铸型）生成初始几何；
- 应用空间变换 （裁剪、旋转、弹性形变）+ 形态学操作（膨胀、平滑）模拟生物变异；
- 引入血管特异性伪影（如dropout、hull等）。
背景：
- 构建三种几何模板（球体、多面体、无结构）+ Perlin噪声纹理；
- 支持纯均匀背景，增强极端情况鲁棒性。
融合机制：
- 动态调整前景/背景强度对比度；
- 应用医学成像典型伪影（Gibbs、Rician噪声、k-space尖峰等）。

✅ 意义：Ddrand 不仅提供海量数据，还系统性覆盖了跨模态、跨尺度、跨协议的域偏移，极大提升模型泛化能力。

3. 采用流匹配（Flow Matching）

相比传统扩散模型（如DDPM），vesselFM 选择流匹配（Flow Matching）作为生成范式，具有以下优势：

前向过程为线性插值（x_t = t·x₁ + (1−t)·x₀），ODE轨迹更平滑；
采样效率更高（仅需~100步即可高质量生成）；
训练目标更稳定（L²速度场回归 vs 扩散的噪声预测）。

实验表明（表4、图7），基于流匹配的 F 比 Med-DDPM（扩散模型）生成的图像更逼真、更符合类别特异性伪影。

4. 基础模型训练策略与评估协议

预训练-微调范式：在三类大规模合成+真实数据上预训练，再在极少量样本（1~3个patch）上微调；
严格零样本评估：排除测试数据所属类别于训练集之外，确保公平性；
使用拓扑感知指标 clDice ：不仅看重叠率（Dice），更关注血管连通性与管状结构完整性。

5. 架构选择与工程实现

分割主干采用 Isensee UNet 的 MONAI 实现（当前医学分割SOTA架构）；
生成模型的速度场 v_θ 采用 MedDDPM 中的UNet结构，适配3D医学数据；
整体训练采样比例：Ddrand (70%) + Dreal (20%) + Dflow (10%)，平衡多样性与真实性。

总结

创新维度	具体内容
数据层面	三类异构数据源（真实+域随机化+流匹配生成）
生成模型	掩码+类别双条件流匹配模型，确保图像-掩码精确配对
域随机化	针对3D血管定制的前景/背景/融合策略
生成范式	采用流匹配替代扩散模型，提升生成质量与效率
评估体系	严格的零样本/单样本协议 + 拓扑感知指标（clDice）

三、怎么生成：图像-掩码对

一、来自 DrealDreal：真实图像 + 已有标注

图像（XrealXreal）：来自公开或合作的医学3D血管数据集（如TubeTK、VascuSynth等），包含MRA、CTA、µCT等多种模态。
掩码（MrealMreal）：由专家人工标注或通过高精度算法（如腐蚀铸型+显微成像重建）获得的真实血管分割标签。
✅ 特点：
- 图像与掩码是天然配对的；
- 掩码质量高，但可能存在标注者偏差 或标注不完整（尤其在细小血管处）；
- 数据量有限，且覆盖的解剖结构和成像模态种类受限。

所以，DrealDreal 的图像-掩码对是已有标注的真实数据。

二、来自 DdrandDdrand：完全合成（域随机化）

这是 vesselFM 的核心创新之一------通过程序化生成的方式，从零构建大量逼真且多样化的图像-掩码对。

掩码 MsynMsyn 是如何生成的？

基础血管拓扑结构：
- 源自真实的腐蚀铸型血管树（corrosion cast data），这些数据提供了生物合理的3D血管分形结构（如分支角度、管径变化、层级关系）。
- 通过图结构采样（graph-based sampling）从中提取子树，作为初始血管骨架。
形态增强与变异：
- 对血管骨架进行弹性形变 （elastic deformation）、旋转/缩放/裁剪；
- 应用形态学操作（如膨胀、平滑）将骨架转换为具有体积的3D管状结构；
- 引入生物学变异：随机改变分支数量、管径分布、曲率等，模拟个体差异。
背景区域生成：
- 构建非血管区域的几何模板（球体、多面体、无结构噪声场）；
- 背景掩码设为0，血管区域设为1，形成完整的二值掩码 MsynMsyn。

✅ 关键点：

所有 DdrandDdrand 的掩码都是程序化生成的，不含任何人工标注，因此没有标注偏差，且形态多样性极高。

图像 XdrandXdrand 如何与掩码配对？

将生成的掩码 MsynMsyn 作为前景结构先验；
在前景（血管）和背景区域分别赋予不同的强度分布（如高斯、均匀）；
叠加医学成像典型伪影（Rician噪声、Gibbs振铃、k-space尖峰等）；
动态调整前景-背景对比度，模拟不同成像协议。

→ 最终得到精确配对的 (Xdrand,Msyn)(Xdrand,Msyn)。

三、来自 DflowDflow：流匹配生成图像 + 复用合成掩码

这是 vesselFM 的另一大创新：利用训练好的条件流匹配生成模型 FF 来扩展数据多样性。

掩码来源：

直接复用 DdrandDdrand 中已生成的 MsynMsyn！

论文明确指出（原文）：

"鉴于 MsynMsyn 已涵盖所需的血管形态多样性，且不含人工标注引入的偏差或错误，我们在采样过程中仅使用来自 MsynMsyn 的掩码 mm。"

也就是说：

掩码不是新生成的 ，而是从 DdrandDdrand 的50万对中随机采样已有的 MsynMsyn；
这些掩码作为条件输入提供给流匹配模型 FF。

图像如何生成？

训练阶段：
- 模型 FF（即速度场 vθvθ）在 (Xreal,Mreal)(Xreal,Mreal) 和 (Xdrand,Msyn)(Xdrand,Msyn) 上联合训练；
- 学习如何根据给定的掩码 mm 和类别标签 cc，生成符合该模态风格的逼真图像。
采样阶段（生成 DflowDflow）：
- 随机选取一个 MsynMsyn（来自 DdrandDdrand）；
- 选择一个目标类别 c∈C∪{0}c∈C∪{0}（例如"OCTA视网膜"或"通用血管"）；
- 从噪声 x0∼N(0,I)x0∼N(0,I) 出发，通过ODE积分（公式3）逐步生成图像 XflowXflow；
- 由于生成过程以 mm 为条件，生成的 XflowXflow 的血管结构严格对齐 mm。

✅ 结果：得到高质量、逼真、且与 MsynMsyn 精确配对的 (Xflow,Msyn)(Xflow,Msyn)。

注意：这里没有重新生成掩码 ，而是"用合成掩码引导生成更逼真的图像"，从而形成新的图像-掩码对。

总结：三类数据源的图像-掩码对来源

数据源	图像来源	掩码来源	是否含人工标注
DrealDreal	真实医学扫描	专家/高精度算法标注	✅ 是（可能有偏差）
DdrandDdrand	程序化合成（域随机化）	程序化生成（基于真实血管拓扑）	❌ 否（无偏差，高多样性）
DflowDflow	流匹配模型 FF 生成	复用 DdrandDdrand 的 MsynMsyn	❌ 否