【深度学习】生成对抗网络 GAN

自编码器是一种 **无监督学习（考点）**模型。

核心思想：让模型学习数据的压缩表示（编码），并尽可能无损失地重构回原始数据（解码）。

1. 基本结构

编码器 ：将高维输入数据压缩为一个低维的潜在向量 。这个过程是 数据 → 特征。

解码器 ：将潜在向量重构回原始数据维度。这个过程是 特征 → 数据。

目标：最小化重构误差，让输出尽可能接近输入。

【简答】：自编码器由哪两部分组成？它们的功能分别是什么？

编码器和解码器。编码器 将输入数据压缩为低维潜在向量（提取关键特征）；解码器将潜在向量重构为与原始数据维度一致的输出。

bottleneck 瓶颈层/潜在表示

2. 核心特点

无监督：不需要标签，只靠数据本身。

特征学习：学习到的潜在向量是数据的"精华"或"特征表示"。

降噪/去噪：一种常见应用是，输入带噪声的数据，让模型输出清晰的数据，从而学会降噪。

3. 自编码器分类

基础自编码器：使用全连接层，结构简单，适合简单数据。

latent 潜在的

卷积自编码器：使用卷积层和池化层（编码器）、反卷积/上采样层（解码器），擅长处理图像等具有空间结构的数据。

变分自编码器（VAE） ：引入概率思想，编码器输出分布的参数（均值和方差），通过采样得到潜在变量，可用于生成新数据，是重要的生成式模型。

判别式模型 VS 生成式模型

判别式模型：

学习 输入 → 输出标签 的映射。

关注 "如何区分不同类别"。

例子：逻辑回归、SVM、CNN分类器。

特点：训练快，适合分类，不能生成新样本。

生成式模型：

学习 数据的联合概率分布。

关注 "如何生成类似真实的数据"。

例子：朴素贝叶斯、VAE、GAN。

特点：能生成新样本，训练复杂度高。

判别式模型和生成式模型的根本区别是什么？

判别式模型 直接学习输入特征X与输出标签Y之间的条件概率分布 P(Y|X) 。它关注的是"在给定输入下，它最可能属于哪个类别"，即学习的是决策边界。

生成式模型 则学习输入特征X和输出标签Y的联合概率分布 P(X, Y)。它首先学习每个类别的数据本身是如何分布的（P(X|Y) 和 P(Y)），然后通过贝叶斯定理推导出 P(Y|X)。它关注的是"数据本身是如何生成的"。

GAN基础理论与原理

简答：简述GAN的基本组成部分及其功能。

生成对抗网络由两个核心神经网络模块构成：生成器 与判别器。二者通过对抗博弈机制协同训练。

1. 生成器

2. 判别器

损失函数

1、总目标（极小极大博弈）

log⁡ 默认表示自然对数 ln⁡（以 e 为底）

2、判别器损失（二分类任务）

3、生成器损失

训练流程

！！！PPT例题

简述GAN中生成器与判别器的输入与输出分别是什么

生成器 (G)

输入：随机噪声向量 𝑧（通常来自正态分布）。

输出：伪造的数据样本 G(z)（如图像）。

判别器 (D)

输入：真实样本 x 或生成样本 G(z)。

输出：一个概率值 𝐷(⋅)，表示输入样本为真的置信度。

GAN vs 自编码器

DCGAN（深度卷积生成对抗网络）

（1）提出背景

（2）DCGAN的核心架构特点

DCGAN的训练优化策略

标签平滑：

真实标签设为 0.9，生成标签设为 0.1，防止判别器过于自信导致梯度消失。

损失平均：

判别器损失取 (real_loss + fake_loss) / 2，降低训练震荡。

学习率衰减：

训练后期逐步降低学习率，使模型收敛更稳定。

数据增强：

使用随机水平翻转、随机裁剪等扩充数据集，减轻过拟合。

模型保存策略：

按生成器损失保存"最佳模型"，而非定期保存。

【总结】DCGAN核心考点

三大改进（PPT P37）：

生成器使用转置卷积（ConvTranspose2d） 进行上采样。

判别器使用卷积层（Conv2d） 进行下采样。

在生成器和判别器中广泛使用批归一化（BatchNorm） 来稳定训练。

激活函数 ：生成器用ReLU（输出层用Tanh），判别器用LeakyReLU。

利用CNN擅长处理图像局部特征和空间结构的特性，显著提升了生成图像的质量。

WGAN（Wasserstein GAN）

核心改进 ：用 Wasserstein距离（Earth-Mover距离） 替代原始GAN的 JS散度 作为分布距离度量。

Wasserstein距离：又称"推土机距离"，衡量两个分布之间转换的最小"工作量"。

Lipschitz约束：限制函数变化速度，确保梯度不超过某个上界。

WGAN-GP

WGAN的问题

WGAN通过权重裁剪强制实现Lipschitz约束，但带来两个明显问题：

容量限制 ：裁剪使评论家网络表达能力下降，导致生成图像模糊。

训练敏感：裁剪阈值 c 需精心调参，过大过小均会导致训练不稳定或失效。

WGAN-GP 的全称是 WGAN with Gradient Penalty 。其核心是用 梯度惩罚 替代 权重裁剪，作为实现Lipschitz约束的更优方法。

梯度惩罚 ：直接在损失函数中增加一个正则项，用于惩罚评论家梯度范数偏离1的情况。

理论依据 ：函数满足 1-Lipschitz 约束 等价于 其梯度范数几乎处处不超过1。

转置卷积

转置卷积的定义与目的

定义：转置卷积是一种上采样操作（考点） ，用于将小尺寸的特征图扩展为大尺寸的特征图。

目的：在生成器（DCGAN）和语义分割解码器等网络中，需要将低维潜在表示或压缩的特征图恢复至原始图像尺寸。

关键特性 ：与双线性插值等固定上采样方法不同，转置卷积的参数是可学习（考点）的，能通过训练优化其上采样方式。

标准卷积 vs 转置卷积

转置卷积的计算步骤

k 是核尺寸，p 是原始卷积的填充数

转置卷积输出尺寸计算公式

kernel_size = Kh = Kw