生成对抗网络(GAN)

1️⃣ gan介绍

GAN包括一个生成器和一个判别器

生成器:

  • 输入是n维度的向量
  • 输出是图片像素大小的图片
    判别器:
  • 输入是图片
  • 输出是图片的真伪标签

2️⃣ GAN原理分析

GAN的大致训练过程为:

先训练判别器(固定生成器)

  • 从真实数据集中采样,x∼pdata(x)x \sim p_{data}(x)x∼pdata(x)
  • 从噪声分布采样,z∼pz(z)z \sim p_z(z)z∼pz(z)
  • 生成假样本,xg=G(z)x_g = G(z)xg=G(z)
  • 用真实和生成样本训练判别器,损失函数在下面介绍

再训练生成器(固定判别器)

  • 采样噪声,z∼pz(z)z \sim p_z(z)z∼pz(z)
  • 生成样本,xg=G(z)x_g = G(z)xg=G(z)
  • 通过判别器计算,D(G(z))D(G(z))D(G(z))
  • 使用损失函函数更新生成器参数

接下来看一下具体的损失函数可简化为:
min⁡Gmax⁡DV(D,G)=Ex∼pdata(x)[log⁡D(x)]+Ez∼pz(z)[log⁡(1−D(G(z)))]\min_G \max_D V(D,G) = \mathbb{E}{x \sim p{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]GminDmaxV(D,G)=Ex∼pdata(x)[logD(x)]+Ez∼pz(z)[log(1−D(G(z)))]

其中:

  • pdata(x)p_{data}(x)pdata(x) 是真实数据的分布,x 是真实样本;
  • pz(z)p_z(z)pz(z) 是随机噪声(如高斯分布)的分布,z 是噪声输入,G(z)G(z)G(z) 是生成器输出的 "假样本";
  • D(x)D(x)D(x) 表示判别器判定 "真实样本x为真" 的概率,D(G(z))D(G(z))D(G(z))是判别器判定 "假样本G(z)为真" 的概率

原论文在参数的更新过程,是对D更新k次后,才对G更新1次。上式中的minmax可理解为当更新D时,需要最大化上式,而当更新G时,需要最小化上式,详细解释如下:

(1)更新判别器D

在对判别模型D的参数进行更新时,固定G的参数。目标是能够区分出来真实图片和生成的图片。对于真实数据,希望D(x)D(x)D(x)接近1;对假数据,希望D(G(z))D(G(z))D(G(z))接近0。为了实现这一目标,损失函数需要最大化上式:

  • 第一部分:Ex∼pdata(x)[log⁡D(x)]\mathbb{E}{x \sim p{\text{data}}(x)}[\log D(x)]Ex∼pdata(x)[logD(x)]

    最大化第一部分就是让log⁡D(x)\log D(x)logD(x)尽可能的大,即希望判别器的输出结果D(x)D(x)D(x) 接近 1,符合判别器的目标

  • 第二部分:Ez∼pz(z)[log⁡(1−D(G(z)))]\mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]Ez∼pz(z)[log(1−D(G(z)))]

    最大化第二部分,就是让log⁡(1−D(G(z)))\log(1 - D(G(z)))log(1−D(G(z)))尽可能的大,即希望1−D(G(z))1 - D(G(z))1−D(G(z))尽可能的大,即希望D(G(z))D(G(z))D(G(z))尽可能的小,符合判别器的目标。

(2)更新生成器G

此时 D 已优化为 "当前最优判别器",G 的目标是 "生成更逼真的假数据欺骗 D",D(G(z))D(G(z))D(G(z))接近 1,对应 "最小化 V(D,G)V(D,G)V(D,G)" ------ 但需注意:
V(D,G)V(D,G)V(D,G) 中的第一部分 Ex∼pdata(x)[log⁡D(x)]\mathbb{E}{x \sim p{\text{data}}(x)}[\log D(x)]Ex∼pdata(x)[logD(x)]与G无关(G 不影响真实数据),优化时可视为常数,因此 G 只需最小化第二部分的 "负项":

  • 原目标中 G 需最小化的部分等价于:
    min⁡GEz∼pz(z)[log⁡(1−D(G(z)))]\min_G \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]minGEz∼pz(z)[log(1−D(G(z)))]

    最小化这一部分, 即让log⁡(1−D(G(z)))\log(1 - D(G(z)))log(1−D(G(z)))越小越好,即1−D(G(z))1 - D(G(z))1−D(G(z))接近 0,即D(G(z))D(G(z))D(G(z))接近 1(让 D 误以为假数据是真实的),符合生成器的目标

(3)minmax 的最终收敛目标

当 G 和 D 经过多轮对抗训练后,会达到纳什均衡(Nash Equilibrium)------ 此时:

  • D 无法再提升判别能力:对真实数据和 G 生成的假数据,D 的输出均为 0.50.50.5 (完全无法区分),即 D(x)=D(G(z))=0.5D(x) = D(G(z)) = 0.5D(x)=D(G(z))=0.5。
  • G 无法再提升生成能力:生成数据的分布 pg(x)p_g(x)pg(x) 完全匹配真实数据的分布 pdata(x)p_{\text{data}}(x)pdata(x),即 pg(x)=pdata(x)p_g(x) = p_{\text{data}}(x)pg(x)=pdata(x)。

此时目标函数 V(D,G)V(D,G)V(D,G) 达到 "G 最小化、D 最大化" 的稳定状态,minmax 优化完成 ------ GAN 的核心目标(获得能生成逼真数据的 G)也就实现了


相关推荐
明月醉窗台1 天前
深度学习(17)YOLO训练中的超参数详解
人工智能·深度学习·yolo
t_hj1 天前
大模型微调
人工智能·python·深度学习
z小猫不吃鱼1 天前
06 ViT 为什么需要大规模数据?从归纳偏置理解 ViT 的训练特点
深度学习·计算机视觉·cnn
Godspeed Zhao1 天前
从零开始学AI16——SVM
算法·机器学习·支持向量机
nebula-AI1 天前
人工智能导论:模型与算法(核心技术)
人工智能·深度学习·神经网络·算法·机器学习·集成学习·sklearn
数智工坊1 天前
视觉-语言-动作模型解剖学:从模块、里程碑到核心挑战
论文阅读·人工智能·深度学习·算法·transformer
惊鸿一博1 天前
Transformer模型图解(简单易懂版)
人工智能·深度学习·transformer
Omics Pro1 天前
填补蛋白质组深度学习预处理教学空白
人工智能·python·深度学习·plotly·numpy·pandas·scikit-learn
解局易否结局1 天前
ops-transformer 的 FlashAttention:给昇腾NPU 配了个“高效厨房“
人工智能·深度学习·transformer