基于几何映射的二维自然图像到四维fMRI脑图像的迁移学习/文献速递-大模型与图像分割在医疗影像中应用

2026.3.13

本研究提出了一种基于几何映射的fMRI迁移学习方法，通过将四维fMRI脑皮层数据转换为二维图像，并结合多尺度多域特征聚合（MMFA）模块，有效解决了fMRI小样本数据深度学习的挑战，并在性别分类、年龄估计、行为测量预测和抑郁症诊断等任务中取得了最先进的性能。

Title 题目

Transfer learning from 2D natural images to 4D fMRI brain images via geometric mapping

基于几何映射的二维自然图像到四维fMRI脑图像的迁移学习

文献速递介绍

功能性磁共振成像（fMRI）作为一种非侵入性神经影像技术，在神经科学领域广泛应用，但在其深度学习分析中面临多项挑战。首先，深度学习模型需要大量数据进行训练，而fMRI数据集通常样本量小。其次，现有的2D预训练模型无法直接应用于4D fMRI数据，因为简单的数据转换会丢失时间和空间信息并破坏大脑的整体拓扑结构。第三，大多数深度学习方法基于欧几里得距离，不适用于大脑皮层复杂的非欧几里得结构，导致信号干扰和拓扑结构破坏。最后，fMRI数据的高维性也影响了深度学习模型的性能，而现有方法往往只在单一尺度或单一域进行降维，导致信息损失。为解决这些挑战，本研究提出了一种基于面积保持几何映射的新型fMRI迁移学习方法，旨在转换高维4D fMRI数据为2D图像，从而实现基于大型2D自然图像的迁移学习，并同时强调大脑的结构特性。

Aastract摘要

功能性磁共振成像（fMRI）通过血氧水平依赖（BOLD）信号实时观测大脑活动，广泛应用于性别分类、年龄估计、行为测量预测和精神疾病诊断等研究。然而，fMRI数据集样本量小且4D fMRI数据与2D自然图像之间存在异质性，阻碍了深度学习在fMRI分析中的应用。本研究提出了一种新颖的基于几何映射的fMRI迁移学习方法，旨在弥合fMRI数据与自然图像之间的迁移学习鸿沟。该方法通过多尺度多域特征聚合（MMFA）模块提取有效聚合特征，并将fMRI数据降维至3D空间。通过将大脑皮层视为3D空间中折叠的黎曼流形，并利用表面几何映射将其映射到2D空间，从而实现从2D自然图像到4D脑图像的迁移学习。此外，该方法保持了大脑皮层的拓扑关系，并沿大脑黎曼流形进行计算，有效解决了信号干扰问题。基于人类连接组计划（HCP）数据集的实验结果表明，该方法在性别分类、年龄估计和行为测量预测任务中均达到了最先进的性能。此外，研究还提出了一种用于抑郁症诊断的级联迁移学习方法，并在23个抑郁症数据集中验证了其有效性。总而言之，所提出的考虑到大脑结构特征的fMRI迁移学习方法，有望将自然图像的迁移学习应用于脑fMRI图像，显著提高各种fMRI分析任务的性能。

Method 方法

本研究使用了人类连接组计划（HCP）数据集进行性别分类、年龄估计和行为测量预测任务，并利用抑郁症影像研究联盟（DIRECT）第二阶段数据集进行重度抑郁症（MDD）诊断。fMRI数据首先通过FreeSurfer和DPABISurf进行预处理，将皮层表面映射到标准网格。为了解决fMRI数据的高维性、时空复杂性和低信噪比问题，本文提出了多尺度多域特征聚合（MMFA）方法。该方法在顶点尺度（通过低频波动幅值ALFF）、局部尺度（通过局部一致性ReHo）和全局尺度（通过度中心性DC）提取特征，并将4D fMRI数据压缩成3D表面网格，从而避免单尺度或单域特征提取的信息损失。随后，为了适应自然图像的输入形式，利用基于最优质量传输理论的面积保持几何映射将3D脑表面网格映射到2D平面网格，该过程能够保持每个顶点的面积不变和拓扑关系。在迁移学习阶段，模型首先在大型自然图像数据集ImageNet上进行预训练，然后使用生成的2D fMRI图像进行微调，其中采用了mix-up数据增强和层冻结策略以提高模型性能和稳定性。对于抑郁症诊断，进一步提出了fMRI级联迁移学习，通过将ImageNet、其他fMRI数据集（如HCP的性别和年龄任务）和目标抑郁症fMRI数据集作为源域、中间域和目标域，进行两阶段模型训练，以增强小样本数据集上的性能。最后，采用遮挡测试进行模型可视化，以确定在不同任务中影响分类和回归结果的关键脑区。

Discussion讨论

本研究提出了一种基于最优质量传输几何映射的新型fMRI脑图像迁移学习方法，有效弥合了2D自然图像与4D fMRI脑数据之间的鸿沟，解决了fMRI分析中的关键挑战。传统方法难以处理4D fMRI数据与2D自然图像架构之间的几何不匹配，导致fMRI分析结果不佳。通过整合面积保持几何映射和MMFA方法，我们的方法有效地将折叠的4D fMRI皮层表面转换为2D图像，同时保留了拓扑关系。这种转换不仅使得从自然图像进行知识迁移成为可能，还使模型能够沿着大脑的测地距离进行计算。该方法在脑图像分析中显示出巨大的潜力。我们在HCP数据集上评估了所提出方法的性能，并在性别分类、年龄估计和行为测量预测方面取得了最先进（SOTA）的结果，显著优于传统方法。此外，级联迁移学习策略在23个小样本抑郁症数据集上的抑郁症诊断中表现出鲁棒性，突显了其对小样本诊断场景的适应性。迁移学习从自然图像到fMRI脑图像是解决fMRI数据集小样本、高维性问题的有效途径。我们选择自然图像进行预训练，原因在于其易获取、大规模、多样性，能确保预训练模型具备强大的表示能力和泛化能力。自然图像与fMRI数据在低级视觉特征上具有相似性，使得从自然图像学习到的特征可有效迁移。几何映射的益处在于其能消除2D自然图像和4D fMRI数据之间的异质性，将3D非欧几里得皮层表面映射为2D平面图像，保留拓扑结构并使2D平面上的欧几里得距离近似于皮层表面的测地距离，从而避免信号混淆并提升可视化效果。MMFA模块通过聚合顶点、局部和全局尺度的多域特征，有效解决了fMRI数据高维性问题，实现了400倍的数据压缩，同时增强了特征的代表性和鲁棒性。预训练样本量对模型性能有显著影响，更大的预训练数据集能带来更好的性能提升，这为fMRI分析提供了成本效益高且有效的方法。fMRI级联迁移学习策略通过引入其他fMRI数据集作为中间任务，进一步提升了小样本抑郁症数据集上的诊断准确率，融合了自然图像的低级特征和脑图像的高级特征，并发现中间域与目标域的相关性越高，级联迁移学习效果越好。可视化结果揭示了在性别分类、年龄估计和抑郁症诊断中具有判别性的关键脑区，这些发现与以往研究高度一致，增强了模型的神经生物学解释性。

Conclusion结论

本研究提出了一种创新性的fMRI迁移学习方法，该方法充分考虑了大脑皮层的结构特性。我们利用面积保持几何映射和多尺度多域特征聚合（MMFA）模块，成功实现了从2D自然图像到4D fMRI脑图像的有效迁移学习。这种方法显著降低了深度学习模型对大规模fMRI数据集的依赖，并在HCP数据集上的性别分类、年龄估计和行为测量预测任务中取得了最先进（SOTA）的结果。此外，我们提出了一种通过利用其他fMRI数据集作为中间任务的fMRI级联迁移学习方法，并在23个数据集的抑郁症诊断中验证了其有效性。更重要的是，我们的方法能够沿着大脑皮层的黎曼流形进行计算，这对于保持脑图像的拓扑结构和减少信号混淆至关重要。通过弥合自然图像与fMRI脑图像之间的迁移学习鸿沟，本研究为fMRI分析提供了一种新颖的途径，并展示了在小样本fMRI数据集上提升模型性能的潜在技术路线。

Results结果

面积保持几何映射结果：该方法成功将3D脑表面网格映射到2D平面网格，生成了2D Desikan-Killiany (D-K) 图谱，消除了3D视图中的遮挡，使脑区可视化更清晰，并保持了拓扑关系（图4）。2. 性别分类和年龄估计结果：在HCP数据集上，结合迁移学习的模型在ResNet、WideResNet、DenseNet、ResNext、RegNet和SwinTransformer等多种深度学习架构上，其准确率、精确率、召回率、AUC和相关系数均显著优于从头开始训练的基线模型。ResNet模型通过迁移学习在性别分类中实现了95.07%的准确率（提高7.84%），在年龄估计中MAE为2.72（改善0.35），均达到最先进水平。同时，迁移学习模型表现出更快的收敛速度、更高的稳定性和鲁棒性（图5、6、7、8）。3. 消融研究：结果证实了MMFA模块、mix-up数据增强和模型冻结策略在性别分类和年龄估计任务中对模型性能的显著提升，MMFA尤其在提取有效特征方面表现突出（表2、3）。4. 预训练样本量影响：随着预训练数据集规模的增加，性别分类的准确率和年龄估计的MAE均得到改善，表明预训练数据集规模是影响fMRI迁移学习性能的关键因素（图9）。5. 认知行为测量预测：在HCP数据集的58项行为测量中，该方法显著提高了52项测量的预测精度（近90%），平均相关系数从0.208提高到0.253，超越了以往研究的最优模型（图10、11）。6. 抑郁症诊断：单阶段fMRI迁移学习将准确率提高到65.21%。级联迁移学习进一步提升性能，特别是在使用其他抑郁症数据集作为中间域时，平均准确率达到73.61%，而在以性别为中间任务时也取得了72.04%的较高准确率（图12、13）。7. 可视化结果：遮挡测试识别出在性别分类、年龄估计和抑郁症诊断中起关键作用的脑区，如性别相关的中央前回、中央后回、中央旁小叶、缘上回；年龄相关的额上回、尾侧额前回、扣带回后部、脑岛；抑郁症相关的左脑岛、中央后回、楔前叶、距状裂旁、左楔叶和右顶上小叶等，这些发现与现有研究高度一致（图14）。

Figure 图

图1. 提出的fMRI迁移学习方法的概述。预处理模块提取大脑皮层的表面网格。多尺度多域特征聚合（MMFA）模块聚合从fMRI数据中提取的顶点尺度、局部尺度和全局尺度特征。如图2所示，几何映射用于将3D网格映射到2D网格。预训练模块使用自然图像训练随机初始化的模型。在迁移学习模块中，使用聚合的2D脑图像对预训练模型进行微调。

图2. 面积保持几何映射示意图。左右半球被映射到两个对称的2D网格。底部显示了放大后的局部图像，其颜色边界框与匹配的图像区域相同。

图3. 基础模型ResNet-50的架构图。实线弧表示跳跃连接，虚线弧表示带下采样的跳跃连接。一些模块重复多次，用底部数字表示。fc是全连接层，其结构取决于具体任务。

图4. 由面积保持几何映射生成的2D D-K图谱。

图5. 基于HCP数据集的性别分类结果。评估了包括ResNet、WideResNet、ResNext、DenseNet、RegNet和SwinTransformer在内的六种模型，以检验所提出的fMRI迁移学习方法的有效性。"Baseline"指从头开始训练的模型，"Ours"指采用所提出迁移学习方法训练的模型。采用准确率、精确率、召回率和AUC作为评估指标，更高的值表示更好的性能。

图6. 基于HCP数据集的年龄估计结果。六个基础模型和迁移学习模型参与评估。使用MAE、RMSE、MAPE和相关系数(r)评估模型性能。对于MAE、RMSE和MAPE，较低的值表示更好的性能，而对于相关系数，较高的值表示更好的性能。

图7. 性别分类和年龄估计的训练和测试性能。ResNet用作基础模型，并采用fold-1进行评估。性别分类任务显示准确率和损失，年龄估计任务使用MAE和损失。

图8. 与之前在HCP数据集上进行性别分类和年龄估计研究的比较。

图9. 预训练样本大小的影响。(a) 性别分类结果和(b) 年龄估计结果。

图10. HCP数据集中58项行为测量预测结果。使用相关系数(r)进行比较，以与以往研究保持一致。显示了基线模型和我们提出的fMRI迁移学习方法在10折交叉验证中的各项指标的平均相关系数和标准差。

图11. 与以往基于HCP数据集中58项行为测量预测研究的比较。遵循以往研究，使用平均相关系数进行比较。

图12. 23个数据集抑郁症诊断的总体平均准确率。Baseline(combine)和transfer(combine)表示模型使用由23个独立数据集组成的大型组合数据集进行训练和测试。其他模型基于单一数据集进行评估，包括从头开始训练（baseline）、使用ImageNet进行迁移学习（transfer）、以年龄为中间任务的fMRI级联迁移学习（cascaded-age）、以性别为中间任务的fMRI级联迁移学习（cascaded-sex），以及以多中心抑郁症数据集为中间任务的fMRI级联迁移学习（cascaded-depression）。

图13. 基于23个抑郁症数据集的抑郁症诊断准确率。

图14. 使用遮挡测试的可视化结果。数值表示性别分类、抑郁症诊断的平均准确率下降以及年龄估计的MAE增加。