机器学习深度学习beginning3

**生成对抗网络（Generative Adversarial Network，简称 GAN）：**通过让两个神经网络相互对抗、共同进化，从而学习到真实数据的分布，并能够生成逼真的新样本。

1.生成器（Generator, G） ：从一个随机噪声向量（潜在空间）中生成"假"样本，试图欺骗判别器，使其无法区分真假。
判别器（Discriminator, D）：接收真实样本和生成器生成的假样本，判断每个样本是"真"还是"假"。

2.训练过程：GAN 的训练是Generator和Discriminator两个网络交替进行的，每轮训练通常包括：训练判别器和训练生成器。

训练判别器：固定生成器，采样一个 batch 的真实数据和生成数据，计算判别器损失，更新判别器参数。

训练生成器：固定判别器，采样一个 batch 的噪声，生成假样本，计算生成器损失（基于判别器的输出），更新生成器参数。

3.常见问题

Mode Collapse（模式崩溃）：指生成器只捕捉到真实数据分布中的少数几个模式 ，反复生成几乎相同或非常相似的样本，完全忽略其他模式。

Mode Dropping（模式丢失）：指生成器完全无法生成某些数据模式，但生成的其他模式内部多样性尚可。

4.评价指标
Inception Score（IS） ：基于预训练分类器的预测熵。取值范围：理论最小值为 1（随机噪声），最大值约为 1000 左右（真实 ImageNet 图像）。IS 越高越好 。
Fréchet Inception Distance（FID） ：比较真实样本和生成样本在特征空间中的分布距离，人工主观评估。取值范围：0 到无穷大，FID 越小越好。真实图像与自身计算的 FID = 0。

5.变体

StyleGAN 系列：生成高质量、高分辨率的人脸图像。

CycleGAN：无需成对数据，解决了无配对图像翻译问题。

StackGAN：实现文本到图像的高分辨率生成。

ProgressiveGAN：稳定生成 1024×1024 的高质量图像。

Spectral Normalization GAN：简单有效，可稳定 GAN 训练，尤其适用于没有 BN 的判别器。

6.应用场景

图像与视频生成、图像到图像的翻译、医学图像合成、分子生成与药物发现、文本到图像、语音到人脸、3D生成等。

补充：

GAN的train因为不知道结果好坏，所以训练过程比较难。但是在train的过程中，也有两点tips。

1.JS 散度（Jensen-Shannon Divergence）

原理：当生成分布 Pg 与真实分布 Pr 没有重叠时，JS 散度为常数 log⁡2，梯度为 0 → 梯度消失 。

后果：判别器过强时生成器得不到有效梯度，训练停滞。

2.Wasserstein 距离

原理：即使 Pg 与 Pr 没有重叠，Wasserstein 距离也能提供有意义的梯度，且是连续的、可微的（在 Lipschitz 约束下）。Wasserstein 距离越近，效果越好。

优势：训练稳定，损失值能反映生成质量，不易出现模式崩溃。

3.ImageNet 是一个大规模的图像分类数据集，包含超过 1400 万张标注图像，覆盖 20,000 多个类别。

对于现阶段很多大模型都能生成图片、视频，甚至出现了AI短剧，是否应用了GAN模型，关于这个问题我向DeepSeek提出疑问，以下是一部分回答：