【 深度学习 】生成对抗网络 GAN

目录

自编码器

[1. 基本结构](#1. 基本结构)

[2. 核心特点](#2. 核心特点)

[3. 自编码器分类](#3. 自编码器分类)

[判别式模型 VS 生成式模型](#判别式模型 VS 生成式模型)

判别式模型和生成式模型的根本区别是什么?

GAN基础理论与原理

[1. 生成器​编辑](#1. 生成器编辑)

[2. 判别器](#2. 判别器)

​编辑

损失函数

[1、总目标 (极小极大博弈)](#1、总目标 (极小极大博弈))

[2、判别器损失 (二分类任务)](#2、判别器损失 (二分类任务))

3、生成器损失

训练流程

简述GAN中生成器与判别器的输入与输出分别是什么

[GAN vs 自编码器](#GAN vs 自编码器)

DCGAN(深度卷积生成对抗网络)

(1)提出背景

(2)DCGAN的核心架构特点

DCGAN的训练优化策略

[WGAN(Wasserstein GAN)](#WGAN(Wasserstein GAN))

WGAN-GP

WGAN的问题

转置卷积

转置卷积的定义与目的

[标准卷积 vs 转置卷积](#标准卷积 vs 转置卷积)

转置卷积的计算步骤

转置卷积输出尺寸计算公式


自编码器

自编码器是一种 **无监督学习(考点)**模型。

  • 核心思想:让模型学习数据的压缩表示(编码),并尽可能无损失地重构回原始数据(解码)
1. 基本结构
  • 编码器 :将高维输入数据压缩为一个低维的潜在向量 。这个过程是 数据 → 特征

  • 解码器 :将潜在向量重构回原始数据维度。这个过程是 特征 → 数据

  • 目标 :最小化重构误差,让输出尽可能接近输入。

【简答】:自编码器由哪两部分组成?它们的功能分别是什么?

编码器和解码器。编码器 将输入数据压缩为低维潜在向量(提取关键特征);解码器将潜在向量重构为与原始数据维度一致的输出。

  • bottleneck 瓶颈层/潜在表示
2. 核心特点
  • 无监督:不需要标签,只靠数据本身。

  • 特征学习:学习到的潜在向量是数据的"精华"或"特征表示"。

  • 降噪/去噪:一种常见应用是,输入带噪声的数据,让模型输出清晰的数据,从而学会降噪。

3. 自编码器分类
  • 基础自编码器:使用全连接层,结构简单,适合简单数据。

  • latent 潜在的

  • 卷积自编码器:使用卷积层和池化层(编码器)、反卷积/上采样层(解码器),擅长处理图像等具有空间结构的数据。
  • 变分自编码器(VAE) :引入概率思想,编码器输出分布的参数(均值和方差),通过采样得到潜在变量,可用于生成新数据,是重要的生成式模型。

判别式模型 VS 生成式模型

判别式模型

  • 学习 输入 → 输出标签 的映射。

  • 关注 "如何区分不同类别"

  • 例子:逻辑回归、SVM、CNN分类器。

  • 特点:训练快,适合分类,不能生成新样本。

生成式模型

  • 学习 数据的联合概率分布

  • 关注 "如何生成类似真实的数据"

  • 例子:朴素贝叶斯、VAE、GAN。

  • 特点:能生成新样本,训练复杂度高。

判别式模型和生成式模型的根本区别是什么?

  • 判别式模型 直接学习输入特征X与输出标签Y之间的条件概率分布 P(Y|X) 。它关注的是"在给定输入下,它最可能属于哪个类别",即学习的是决策边界
  • 生成式模型 则学习输入特征X和输出标签Y的联合概率分布 P(X, Y)。它首先学习每个类别的数据本身是如何分布的(P(X|Y) 和 P(Y)),然后通过贝叶斯定理推导出 P(Y|X)。它关注的是"数据本身是如何生成的"。

GAN基础理论与原理


简答:简述GAN的基本组成部分及其功能。

生成对抗网络由两个核心神经网络模块构成:生成器判别器。二者通过对抗博弈机制协同训练。

1. 生成器
2. 判别器

损失函数

1、总目标 (极小极大博弈)

  • log⁡ 默认表示自然对数 ln⁡(以 e 为底)

2、判别器损失 (二分类任务)

3、生成器损失

训练流程


!!!PPT例题

简述GAN中生成器与判别器的输入与输出分别是什么

  1. 生成器 (G)

    • 输入:随机噪声向量 𝑧(通常来自正态分布)。

    • 输出:伪造的数据样本 G(z)(如图像)。

  2. 判别器 (D)

    • 输入:真实样本 x 或生成样本 G(z)。

    • 输出:一个概率值 𝐷(⋅),表示输入样本为真的置信度。

GAN vs 自编码器

DCGAN(深度卷积生成对抗网络)

(1)提出背景

(2)DCGAN的核心架构特点

DCGAN的训练优化策略
  1. 标签平滑

    真实标签设为 0.9,生成标签设为 0.1,防止判别器过于自信导致梯度消失。

  2. 损失平均

    判别器损失取 (real_loss + fake_loss) / 2,降低训练震荡。

  3. 学习率衰减

    训练后期逐步降低学习率,使模型收敛更稳定。

  4. 数据增强

    使用随机水平翻转、随机裁剪等扩充数据集,减轻过拟合。

  5. 模型保存策略

    按生成器损失保存"最佳模型",而非定期保存。

【总结】DCGAN核心考点

三大改进(PPT P37):

  1. 生成器使用转置卷积(ConvTranspose2d) 进行上采样。

  2. 判别器使用卷积层(Conv2d) 进行下采样。

  3. 在生成器和判别器中广泛使用批归一化(BatchNorm) 来稳定训练。

激活函数 :生成器用ReLU(输出层用Tanh),判别器用LeakyReLU

利用CNN擅长处理图像局部特征和空间结构的特性,显著提升了生成图像的质量。

WGAN(Wasserstein GAN)

  • 核心改进 :用 Wasserstein距离(Earth-Mover距离) 替代原始GAN的 JS散度 作为分布距离度量。

  • Wasserstein距离:又称"推土机距离",衡量两个分布之间转换的最小"工作量"。

  • Lipschitz约束:限制函数变化速度,确保梯度不超过某个上界。

WGAN-GP

WGAN的问题

WGAN通过权重裁剪强制实现Lipschitz约束,但带来两个明显问题:

  1. 容量限制 :裁剪使评论家网络表达能力下降,导致生成图像模糊

  2. 训练敏感:裁剪阈值 c 需精心调参,过大过小均会导致训练不稳定或失效。

WGAN-GP 的全称是 WGAN with Gradient Penalty 。其核心是用 梯度惩罚 替代 权重裁剪,作为实现Lipschitz约束的更优方法。

  • 梯度惩罚 :直接在损失函数中增加一个正则项,用于惩罚评论家梯度范数偏离1的情况。

  • 理论依据 :函数满足 1-Lipschitz 约束 等价于 其梯度范数几乎处处不超过1。

转置卷积

转置卷积的定义与目的
  • 定义 :转置卷积是一种上采样操作(考点) ,用于将小尺寸的特征图扩展为大尺寸的特征图。

  • 目的 :在生成器(DCGAN)和语义分割解码器等网络中,需要将低维潜在表示或压缩的特征图恢复至原始图像尺寸

  • 关键特性 :与双线性插值等固定上采样方法不同,转置卷积的 参数是可学习(考点)的,能通过训练优化其上采样方式。

标准卷积 vs 转置卷积
转置卷积的计算步骤
  • k 是核尺寸,p 是原始卷积的填充数

转置卷积输出尺寸计算公式

  • kernel_size = Kh = Kw
相关推荐
在等星星呐2 小时前
人工智能从0基础到精通
前端·人工智能·python
智驱力人工智能2 小时前
仓库园区无人机烟雾识别:构建立体化、智能化的早期火灾预警体系 无人机烟雾检测 无人机动态烟雾分析AI系统 无人机辅助火灾救援系统
人工智能·opencv·算法·目标检测·架构·无人机·边缘计算
未来之窗软件服务2 小时前
幽冥大陆(六十) SmolVLM 本地部署 轻量 AI 方案—东方仙盟筑基期
人工智能·本地部署·轻量模型·东方仙盟·东方仙盟自动化
今天也要学习吖2 小时前
【开源客服系统推荐】AI-CS:一个开源的智能客服系统
人工智能·开源·客服系统·ai大模型·ai客服·开源客服系统
Christo32 小时前
2022-《Deep Clustering: A Comprehensive Survey》
人工智能·算法·机器学习·数据挖掘
jqpwxt2 小时前
启点创新智慧景区服务平台,智慧景区数字驾驶舱建设
大数据·人工智能
weisian1512 小时前
入门篇--人工智能发展史-2-什么是深度学习,深度学习的前世今生?
人工智能·深度学习
阿里云大数据AI技术2 小时前
Hologres Dynamic Table:高效增量刷新,构建实时统一数仓的核心利器
大数据·人工智能·阿里云·实时数仓·hologres