多对一 MRI 生成!
论文:D2Diff : A Dual Domain Diffusion Model for Accurate Multi-Contrast MRI Synthesis
代码:https://github.com/sanuwanihewa/D2Diff
0、摘要
多对比度 MRI (Multi-contrast MRI)合成本质上具有挑战性,因其不同对比度之间存在复杂且非线性的关系。每种 MRI 对比度均能凸显独特的组织特性,但由于强度分布和对比度特异性纹理的差异,其互补信息难以有效利用。(研究意义)
现有多对比度 MRI 合成方法主要利用空域特征 ,这些特征能够捕捉局部解剖结构,但难以建模全局强度变化和分布模式。相反,频域特征 提供了结构化的对比间相关性,但缺乏空间精度,限制了其保留精细细节的能力。(当前不足,空域频域互补)
本文提出了一种双域(dual-domain)学习框架,该框架整合了多幅 MRI 对比图像的空间域和频率域信息,以增强综合效果。
该方法采用两个相互训练的去噪网络:一个基于空域特征,另一个基于频域特征,二者通过共享的评估网络进行协同训练。此外,不确定性驱动的掩模损失(mask loss)将模型的注意力引导至更关键的区域,进一步提高了合成的准确性。
大量实验表明,我们的方法优于当前最先进的(SOTA)基线方法,下游分割性能突显了合成结果的诊断价值。
1、引言
1.1、研究意义与当前挑战
(1)获取多对比度 MRI 存在显著挑战,包括高昂的成像成本、较长的扫描时间以及与钆基造影剂相关的潜在安全性问题;(临床意义)
(2)现有方法过度依赖僵化的空间域表征和融合策略,难以充分捕捉对比间的互补性和分布特性;(现有方法不足)
(3)空间域特征在编码局部结构和解剖完整性方面表现优异,但往往难以区分显著的强度变化与重叠分布;(空域特征不足)
1.2、本文贡献
(1)提出一个双域扩散框架,同时在频域与空域利用多对比度 MRI 特征进行引导,并通过共享的判别网络实现联合训练;
(2)设计多尺度频率特征整合模块,自适应地融合不同对比度的特征,保留细微的对比度特异性细节;
(3)引入一种新颖的不确定性感知掩模损失,增强基于不确定性的学习能力;
(4)大量实验验证了该方法在合成质量上的优越性,并通过下游分割任务进一步证明了其有效性;
2、方法
2.1、问题表述
设 X = ( X k , Y k ) k = 1 m \mathcal X =(X_k,Y_k)^m_{k=1} X=(Xk,Yk)k=1m为一组 m m m 对配准的 MRI 图像,其中 x k x_k xk 表示待合成的目标对比度, y k = { y k , i } i = 1 n y_k = \{y_{k,i}\}^n_{i=1} yk={yk,i}i=1n 表示作为生成目标的条件输入的 n n n 个源图像。(多对一图像生成)将去噪网络表示为 H j ; j ∈ { 1 , 2 } H_j;j ∈ \{1,2\} Hj;j∈{1,2},其中编码器-解码器 F j F_j Fj 和双域特征提取 ϕ j ϕ_j ϕj 是其功能分解:

2.2、双域扩散模型
图1(A) 展示了 D2Diff 流程的概览,该流程采用两个去噪网络,通过协作学习从多对比度 MRI 中提取频率域和空域特征。扩散模型包含两个主要过程:前向过程和反向过程 。在前向过程中,随机高斯噪声逐步添加到目标 MRI( x 0 x_0 x0)中,以获得加噪图像:

其中 β t β_t βt 是用于向数据添加噪声的噪声方差表, N \mathcal N N 是高斯分布, I I I 是单位协方差矩阵。利用扩散过程的马尔可夫特性,可以直接获得 x t x_t xt 的边缘分布,如下所示:

其中 α t : = 1 − β t α_t := 1 − β_t αt:=1−βt 和 α ˉ t : = ∏ s = 1 t α s \bar α_t := \prod^ t_{s=1} α_s αˉt:=∏s=1tαs 。逆向扩散过程估计后验分布 p θ ( x t − 1 ∣ x t , y i ) p_θ(x_{t−1}|x_t,y_i) pθ(xt−1∣xt,yi),以生成由条件 y i y_i yi 引导的真实 x 0 x_0 x0:

其中 μ θ ( x t , t ) \mu_θ(x_t,t) μθ(xt,t)是均值, σ t 2 σ_t^2 σt2 是由 θ θ θ 参数化的去噪网络的方差。加噪图像作为频率和空间引导合成模型的输入。每个去噪网络随后独立地对扰动数据执行逆扩散过程,利用各自域中的多对比度特征来近似参数化的后验分布,表示如下:

Figure 1 | :网络架构 A:整体架构,包括频率( ϕ 1 ϕ_1 ϕ1)和空间引导( ϕ 2 ϕ_2 ϕ2),B: ϕ 1 ϕ_1 ϕ1 中的多尺度自适应频率聚合;

2.3、频域学习
多对比度 MRI 在不同对比度下表现出显著的强度和分辨率差异。频域将空间模式分解为不同的频率成分,从而更好地分离全局与局部的强度变化。
为此,采用离散余弦变换(DCT),将空间域的变化转换为频率域表示,从而对齐非线性的强度差异。DCT 使用实值余弦函数而非复指数,能够高效地将 MRI 图像分解为频率分量。
通过将多对比度图像转换为频率系数,DCT 有效地将强度变化分布在不同的频带中,增强了合成时的特征一致性。为了实现这一点,本文在 ϕ 1 ( ⋅ ) ϕ_1(·) ϕ1(⋅) 中使用了三种不同核大小 ( k k k) 的 DCT ,从而可以提取多尺度频率特征,表示如下:

其中 h k , y i h_{k,y_i} hk,yi 为各 y i y_i yi 的提取频率特征。
为优化频率特征加权,本文引入了一种新型自适应特征聚合 方法,该方法采用轻量级注意力机制,通过可学习的注意力模块和卷积层分配重要性分数。该方法将组合表征精炼并投影至共同空间。自适应频率融合(图1(B))选择性地强调 MRI 中相关的频率特异性信息,具体如下:

其中 W i W_i Wi 是一个可学习的卷积变换层, α k α_k αk 表示如 图1(B) 所示的自适应特征组合过程,其中使用基于 softmax 的注意力机制( α α α)来分配动态权重( α 3 α_3 α3 , α 5 α_5 α5 , α 7 α_7 α7),以决定每个频率特征在最终表示中的影响程度。这些特征的加权和形成了融合表示 f 1 f_1 f1,用于引导第一个去噪网络。
2.4、空域学习
为了保留精细的解剖细节,第二个去噪网络由 ϕ 2 ( ⋅ ) ϕ_2(·) ϕ2(⋅) 中的多对比度输入的空间特征引导。这增强了结构相关性,捕捉了更精细的细节,如边缘和组织边界,以辅助去噪过程,表示如下:

其中 R i R_i Ri 由每个输入对比度的独立残差块组成,这些残差块包含一个卷积层,随后是组归一化和 ReLU 激活函数。
去噪网络 F 1 \mathcal F_1 F1 和 F 2 \mathcal F_2 F2 均采用基于 U-Net 的架构,正弦位置嵌入则将时间步 t t t 编码为 z z z 作为条件化的潜在向量:

除了去噪生成器外,本文还采用了一个共享的时间依赖性判别网络 ψ ψ ψ ,以确保它们之间的协同训练。 ψ ψ ψ 通过评估 x t − 1 x_{t−1} xt−1 是否是 x t x_t xt 的合理去噪版本来区分 x t − 1 x_{t−1} xt−1 和 x t x_t xt,使用的是判别损失 L c j \mathcal L^j_c Lcj。

由于各降噪网络均基于同一输入对比的不同特征域进行训练,它们可利用共享的评估网络相互学习,从而保持预测结果的一致性。为使评估网络针对真实基准数据进行训练,各降噪网络的预测输出( x p 1 x^{p_1} xp1 和 x p 2 x^{p_2} xp2)按如下方式使用:

若 x t − 1 x_{t−1} xt−1 由去噪网络预测,则 η = 0 η =0 η=0;若 x t − 1 x_{t−1} xt−1 采自实际目标分布,则 η = 1 η =1 η=1。
2.5、不确定性感知掩码损失
本文提出了一种不确定性感知掩码损失,引导去噪网络在合成过程中关注高不确定性的区域。这是通过使用来自评估网络的空间注意力图实现的,这些图能够从目标分布中识别出可靠的特征。具体来说,本文考虑了评估网络中的中间层特征( f m f_m fm),这些特征对通过 Sigmoid( σ σ σ)层提取并插值 ( I I I) 以匹配输出对比度维度( d i m dim dim):

为了加强网络间的互学习,每个去噪网络借助共享判别器给出的"对方输出对比度"的注意力图,来对齐各自的预测结果。随后,采用二元交叉熵 logistic 准则(BCE)量化差异,促使概率估计保持一致,并通过掩模损失 L m j \mathcal L_m^j Lmj 把注意力聚焦到关键区域,具体形式为:

还通过监督损失 L s j \mathcal L_s^j Lsj 将每个网络的单独预测与真实对比度进行对齐,具体形式如下:

随后,通过最小化目标函数对两个去噪网络进行训练:

其中 λ s λ_s λs 、 λ m λ_m λm 、 λ c > 0 λ_c >0 λc>0 控制每个损失分量的贡献。
2.6、双域一致性
在推理过程中,从时间步 T T T 开始,以随机高斯噪声 x t x_t xt 为起点,并通过 T T T 个采样步骤进行迭代优化。在每一步中,利用前向过程的马尔可夫特性,按如下方式推导出第 t − 1 t−1 t−1 个样本:

其中 μ ~ t \tilde \mu_t μ~t 和 β ~ t \tilde β_t β~t 是分布的均值和方差。
为确保两个去噪网络之间相互学习,采用 公式3 和 公式4 推导出两个网络间的平均噪声预测均值,如下所示:

随后,按以下步骤在每个采样步骤中推导去噪图像:

3、实验与结果
3.1、数据集和基线
(1)BraTS2019 脑肿瘤数据集:305 例,序列:T1w, T2w, T1CE, FLAIR。选取 80 个中间轴位切片,256×256,214 例用于训练、61 例用于验证、30 例用于测试;
(2)健康数据集(healthy dataset):85例,选取 100 个中间切片,50 例用于训练、20 例用于验证、15 例用于测试;
(3)对比模型基线:Pix2Pix,pGAN,DDPM,Hi-Net,MM-GAN,SynDif;
3.2、D2Diff 的定性与定量评估
Figure 2 | :健康数据集上合成 MRI 结果的可视化

Figure 3 | :BraTS 数据集上合成 MRI 结果的可视化

Table 1 | :健康数据集与 BraTS 数据集在不同合成序列图像下的性能比较(均值±标准差)

3.3、下游分割任务性能
为了评估合成图像的诊断等效性,使用 BraTS 数据集进行了肿瘤分割。在所有四种序列中,使用 MONAI U-Net 进行训练,以预测肿瘤掩模,其训练-测试划分与合成任务相同。
Table 2 | :分割性能

Figure 4 | :分割结果

3.4、消融实验
评估各组件及双域互学方法的影响。选择 T1CE 合成任务进行消融分析,因其是肿瘤合成领域最具挑战性的任务之一。
Table 3 | :消融实验结果

指标提升还是太难了,而且感觉 PSNR,SSIM 与 LPIPS,FID 的增益相反 /(ㄒoㄒ)/~~