（论文速读）基于GAN的一维医学数据增强

****论文题目：****GAN-based one dimensional medical data augmentation（基于GAN的一维医学数据增强）

****期刊：****Soft Computing (2023)

****摘要：****随着人类生活和社会的不断发展，医学领域也在不断完善。然而，现代医学仍然面临着许多限制，包括具有挑战性的和以前无法解决的问题。在这些情况下，人工智能(AI)可以提供解决方案。产生式对抗网络(GAN)的研究和应用就是一个明显的例子。虽然大多数研究人员关注的是图像增强，但一维数据增强的例子很少。从RT和CT图像中提取的放射组学特征是一维数据。据我们所知，我们是第一个将WGAN-GP算法应用于医学领域的放射组学数据生成的公司。在本文中，我们将一部分原始的真实数据样本输入到模型中。该模型学习输入数据样本的分布，生成与原始真实数据分布相似的合成数据样本，解决了获取标注医学数据样本的问题。我们已经在公共数据集心脏病克利夫兰和私人数据集上进行了实验。与传统的合成少数过采样技术(SMOTE)和普通GAN数据增强方法相比，我们的方法在不同数据比例下显著改善了AUC和SEN值。同时，我们的方法在ACC和SPE值方面也显示出不同程度的改善。这表明我们的方法是有效的和可行的。

训练自己的数据集代码可以从这里获取：（数据集以轴承故障诊断的CWRU为例）

https://blog.csdn.net/LJ1147517021/article/details/161346186?fromshare=blogdetail&sharetype=blogdetail&sharerId=161346186&sharerefer=PC&sharesource=LJ1147517021&sharefrom=from_linkhttps://blog.csdn.net/LJ1147517021/article/details/161346186?fromshare=blogdetail&sharetype=blogdetail&sharerId=161346186&sharerefer=PC&sharesource=LJ1147517021&sharefrom=from_link

用GAN解决医疗数据稀缺问题：WGAN-GP在一维影像组学数据增强中的应用

一、背景：医疗AI面临的"数据荒"

人工智能在医疗影像分析领域展现出巨大潜力，但训练一个可靠的深度学习模型往往需要海量标注数据。以图像识别领域的基准数据集为例，ImageNet 拥有超过 1400 万张图像，COCO 数据集也有约 30 万张。然而，在医学领域，这样规模的数据几乎是奢望------数据收集过程复杂昂贵，需要专业放射科医生参与标注，且涉及严格的患者隐私保护要求。

以本文的核心应用场景放射性肺炎（Radiation Pneumonitis, RP）诊断为例，研究团队收集到的真实世界数据集仅包含 300 名患者，其中阳性病例（RP 患者）仅 66 人，占比约 22%。这带来了两个核心问题：

样本稀少：总体数据量不足，难以训练鲁棒的深度学习模型；
样本不均衡：阴阳性样本比例悬殊，模型容易偏向多数类，对少数类（即阳性患者）的识别能力很差。

这种情况在医疗诊断中普遍存在，尤其是罕见病或并发症的诊断场景。如何在有限数据下训练出高性能分类模型，是本文要解决的核心问题。

二、现有方案的局限

2.1 传统过采样：SMOTE 的瓶颈

面对数据不均衡问题，最常用的传统方法是SMOTE（Synthetic Minority Oversampling Technique，合成少数类过采样技术）。其基本原理是：在真实少数类样本及其最近邻样本之间的连线上插值，生成新的合成样本，从而扩充少数类数量、平衡数据集。

然而，SMOTE 存在明显的局限性：

忽略多数类分布：合成样本时只考虑少数类的局部邻域，不考虑多数类的分布情况；
边界样本问题：当少数类样本位于两类边界时，合成样本容易落入多数类区域，造成类别重叠，反而降低分类精度；
噪声敏感：若少数类中存在噪声样本，SMOTE 会将噪声方向也纳入插值，生成质量低劣的样本。

2.2 GAN 的潜力与困境

生成对抗网络（GAN）由 Goodfellow 等人于 2014 年提出，由生成器（Generator, G）和判别器（Discriminator, D）组成，两者在对抗博弈中相互促进，最终使 G 能够生成与真实数据分布高度吻合的合成样本。

近年来，GAN 在医学图像增强领域取得了丰硕成果，包括肺结节合成、皮肤病变增强、胃癌内镜图像生成等。但这些工作几乎都聚焦于二维或三维图像数据。

本文关注的是另一种重要的医学数据形式------影像组学（Radiomics）特征 。影像组学是从 CT、MRI 等医学图像中提取的高通量定量特征，本质上是一维数值向量。与图像数据相比，一维数据中每个数值都有明确的临床含义，不能简单地像图像像素一样处理。此外，GAN 在处理一维低维数据时容易过拟合，普通 GAN 在小样本场景下性能会显著下降。

对于这一研究空白，据作者所知，此前尚无基于深度学习的影像组学数据增强研究，更无 GAN 方法的尝试。

三、本文方案：WGAN-GP 用于一维医学数据增强

3.1 从 GAN 到 WGAN-GP 的演进

为解决普通 GAN 训练不稳定的问题，研究者们提出了一系列改进：

WGAN ：用 Wasserstein 距离（地球移动距离，Earth-Mover Distance）替代 JS 散度来衡量真实分布与生成分布之间的差异。Wasserstein 距离的优势在于，即使两个分布几乎不重叠，它仍然能提供有效的梯度信号，从根本上解决了梯度消失问题。但 WGAN 通过权重裁剪来满足 Lipschitz 约束，这会导致：判别器参数堆积在边界值（如 0.01 或 −0.01），浪费模型拟合能力；还容易引发梯度爆炸。
WGAN-GP ：Gulrajani 等人提出用**梯度惩罚（Gradient Penalty, GP）**替代权重裁剪。GP 将判别器对输入的梯度 L2 范数约束在 1 附近，既保证了 Lipschitz 连续性，又避免了权重裁剪的缺陷，使训练更稳定、收敛更快。

本文正是将 WGAN-GP 应用于一维影像组学数据的生成增强。

3.2 网络结构设计

【 Fig. 1：WGAN-GP 网络结构图，展示生成器与判别器的全连接层组成及各层维度】

生成器（Generator） 的结构设计遵循"先扩张、后压缩"的思路：

输入：100 维随机噪声向量 z；
逐层扩展维度（100 → 128 → 256 → 512 → 256），保证所有特征都能充分表达；
再压缩至输出维度 206（即影像组学特征数量），提取最有效的特征表示；
每层之间加入 Batch Normalization（BN）层 和 LeakyReLU 激活函数；
输出层使用 Sigmoid 激活函数，将生成值压缩至 $0, 1$ 范围。

判别器（Discriminator） 相对简单，考虑到数据集规模较小，采用三层全连接网络：

输入维度为 206，输出维度为 1；
层间使用 LeakyReLU 激活函数；
最后一层不含任何激活函数（这是 WGAN 系列的关键设计）；
损失函数中加入 GP 项，约束梯度 L2 范数在 1 附近。

3.3 损失函数与梯度惩罚

WGAN-GP 使用 Wasserstein 距离衡量真实分布 Pr 与生成分布 Pg 之间的差异：

根据 Kantorovich-Rubinstein 对偶理论，等价形式为：

由此得到判别器损失：

梯度惩罚项定义为：

其中为超参数（本文设为 100），通过惩罚梯度偏离 1 的程度，将判别器的梯度约束在合理范围内，避免梯度爆炸或消失。

3.4 训练流程

【Fig. 2：训练流程图，从数据预处理、真实阳性数据输入到 WGAN 模型训练和输出合成样本的完整流程】

训练策略为：先训练判别器，每 5 轮再训练一次生成器。具体步骤如下：

预处理：将原始 CT 影像组学特征和放疗计划剂量文件转换为数值特征并归一化；
判别器训练：将真实阳性样本和生成器产生的假阳性样本同时送入判别器，计算损失并反向传播；
生成器训练（每 5 轮执行一次）：将随机噪声生成的假阳性样本送入判别器，根据判别结果更新生成器；
模型保存 ：以判别器损失与 Wasserstein 距离之和的绝对值最小时保存最优模型（这与普通 GAN 仅看收敛曲线的策略不同）。

关键超参数设置：Epochs = 1000，学习率 = 0.0002，Batch_size = 16，Latent_dim = 100，Lambda_gp = 100。

【 Fig. 3：GAN 与 WGAN-GP 训练损失曲线对比图，可直观看出 WGAN-GP 训练更平稳】

四、实验设置

4.1 数据集

数据集一：Heart Disease Cleveland（公开数据集） UCI 机器学习库中最常用的心脏病预测数据集，包含 76 个属性，实验中使用其中 14 个关键属性。目标标签为二值变量：0 表示低心脏病风险，1 表示高风险。

数据集二：Radiation Pneumonitis（放射性肺炎，私有数据集） 真实世界临床数据集，共 300 名患者，其中 66 人（22%）为放射性肺炎阳性。特征来源包括 CT 影像组学特征和放疗计划剂量文件（RD 文件），共提取 206 维特征。数据集存在明显的类别不均衡问题。

4.2 评估指标

研究采用四项分类性能指标，基于真阳性（TP）、真阴性（TN）、假阳性（FP）、假阴性（FN）定义如下：

AUC：ROC 曲线下面积，综合反映分类器区分能力；
ACC（准确率）： $(TP + TN) / (TP + TN + FP + FN)$ ；
SEN（敏感性/召回率）： $TP / (TP + FN)$ ，反映对阳性患者的识别能力；
SPE（特异性）： $TN / (TN + FP)$ ，反映对阴性患者的识别能力。

所有实验采用十折交叉验证，训练集与测试集比例为 2:8，每个逻辑回归模型重复训练测试 10 次取平均。对比方法包括 WGAN-GP、SMOTE、普通 GAN，以及无增强的真实数据基线。

【Fig. 4：测试流程示意图，展示 Noise Z → G → 假阳性数据与原始阳性数据合并 → ML 分类器 → AUC 评估的完整测试流程】

五、实验结果

5.1 AUC 综合对比

【Table 1：四种方法在两个数据集上的 AUC ± 标准差对比表】

在Heart Disease Cleveland 公开数据集 上，WGAN-GP 取得了 0.902 ± 0.016 的 AUC，明显优于 SMOTE（0.874 ± 0.019）、真实数据基线（0.877 ± 0.023）和普通 GAN（0.837 ± 0.023）。

在放射性肺炎私有数据集 上，WGAN-GP 同样表现最优，AUC 达到 0.606 ± 0.009，高于 SMOTE（0.585 ± 0.012）、真实数据（0.584 ± 0.015）和普通 GAN（0.572 ± 0.014）。

值得特别关注的是，WGAN-GP 的标准差在两个数据集上均为最小，说明其生成结果最稳定、方差最小。统计检验显示 WGAN-GP 与各方法的 P 值分别为 0.498（vs SMOTE）、0.232（vs 真实数据）、0.440（vs GAN），虽未达到统计显著性（可能因样本量较小），但 WGAN-GP 的数值优势仍然明显。

【Fig. 5：两个数据集上的 ROC 曲线对比图，(a) 公开数据集，(b) 放射性肺炎数据集，WGAN-GP 曲线在两张图中均位于最上方】

5.2 不同训练集比例下的表现

为验证方法在不同数据量条件下的鲁棒性，研究者将放射性肺炎数据集按 10%~90% 的比例划分训练集，分别评估四种方法的 AUC、ACC、SEN 和 SPE。

【Fig. 7：四个子图 (a)(b)(c)(d) 分别展示 AUC、ACC、SEN、SPE 在不同训练集比例（10%~90%）下的变化曲线，四条线分别对应 WGAN-GP、SMOTE、No Up-sampling、GAN】

实验结果揭示了几个重要规律：

小数据优势最显著：当训练集比例低于 30% 时，WGAN-GP 相对于 SMOTE 和 GAN 的提升幅度最大，这正是医学场景中最常见的困难情形；
数据量增加时差距收窄：随着训练集比例增大，各方法的差异逐渐缩小------这符合预期，因为数据充足时过采样的必要性降低；
AUC 和 SEN 全面领先：WGAN-GP 在所有训练集比例下，AUC 和 SEN 均优于其他三种方法；
ACC 和 SPE 也有提升：在大多数训练集比例下，ACC 和 SPE 也表现出不同程度的改善。

5.3 生成数据的分布可视化

研究使用 t-SNE（t-distributed Stochastic Neighbor Embedding） 将 206 维的高维特征降至二维，直观对比真实数据与三种方法生成数据的分布特征。

【Fig. 6：t-SNE 数据分布可视化图，(a) 公开数据集，(b) 放射性肺炎数据集，展示真实样本（TP/TN）与 WGAN-GP/SMOTE/GAN 生成样本的二维分布】

在公开数据集的降维分布图中，WGAN-GP 生成的假阴性样本（WGAN-GP_FN）相比 GAN 生成的样本，分布更宽、更接近真实阴性样本（TN）；相比 SMOTE，WGAN-GP 生成的分布更内聚，说明它的样本空间更大但也更贴近真实分布。

在放射性肺炎数据集中，WGAN-GP 生成的假阳性样本（WGAN-GP_FP）集中分布在真实阳性样本（TP）附近，而 SMOTE 和 GAN 生成的样本则偏离真实正样本分布较远。

这一可视化结果从分布层面直观证明：WGAN-GP 能够更准确地学习并再现真实数据的分布特征，生成质量明显优于对比方法。

六、总结与展望

6.1 核心贡献

本文的核心价值可归纳为以下三点：

首创性：据作者所知，这是医学领域首次将 WGAN-GP 应用于影像组学一维数据增强，填补了该领域的研究空白；
实用性：方法直接面向医学数据稀缺与不均衡的真实痛点，在公开和私有两个数据集上均验证了有效性；
稳定性：相比 SMOTE 和普通 GAN，WGAN-GP 生成数据的方差更小、分布更接近真实数据，在小样本场景下（训练集 < 30%）优势尤为突出。

6.2 局限与未来方向

作者也坦承了现有方法的不足，并指出了两个值得继续探索的方向：

算法优化：进一步优化 WGAN-GP 在少样本一维数据集上的扩展能力，以实现更好的性能；
新型 GAN 架构：普通 GAN 在小样本低维数据场景下表现不佳，未来可探索新的 GAN 变体，结合 WGAN-GP 的稳定性优势，同时解决小样本低维数据的特殊挑战。

6.3 启示

这项工作的意义不仅在于技术本身，更在于它拓展了 GAN 在医疗 AI 中的应用边界------从视觉图像延伸到结构化的临床数值数据。随着医疗数字化深入推进，如何充分挖掘稀缺的临床数据价值，将是医疗 AI 落地的关键挑战之一。WGAN-GP 为这一挑战提供了一个有力的工具。