GANs是生成模型,它们学习从随机噪声向量 z z z到输出图像 y y y的映射, G : z → y G : z → y G:z→y [22]。相比之下,条件生成对抗网络学习从观察到的图像 x x x和随机噪声向量 z z z到 y y y的映射, G : { x , z } → y G : \{x, z\} → y G:{x,z}→y。
生成器 G G G的训练目标是生成的输出无法被经过对抗训练的鉴别器 D D D与"真实"图像区分开来,鉴别器 D D D的训练目标是尽可能地检测生成器的"伪造"图像。这个训练过程在图2中有所说明。
图2:训练条件生成对抗网络从边缘映射→照片的映射。鉴别器 D D D学习将伪造的(由生成器合成的)和真实的{边缘映射,照片}元组进行分类。生成器 G G G学习欺骗鉴别器。与无条件的GAN不同,生成器和鉴别器都观察输入的边缘映射。
3.1. 目标函数
L c G A N ( G , D ) = E x , y [ log D ( x , y ) ] + E x , z [ log ( 1 − D ( x , G ( x , z ) ) ) ] (1) L_{cGAN}(G, D) = E_{x,y}[\log D(x, y)] + E_{x,z}[\log(1 - D(x, G(x, z)))] \tag{1} LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1−D(x,G(x,z)))](1)
其中生成器 G G G试图最小化这个目标函数,对抗性的鉴别器 D D D试图最大化它,即 G ∗ = arg min G max D L c G A N ( G , D ) G^* = \arg\min_G \max_D L_{cGAN}(G, D) G∗=argminGmaxDLcGAN(G,D)。
为了测试条件鉴别器的重要性,我们还将其与不含条件的变种进行比较,其中鉴别器不观察 x x x:
L G A N ( G , D ) = E y [ log D ( y ) ] + E x , z [ log ( 1 − D ( G ( x , z ) ) ) ] (2) L_{GAN}(G, D) = E_{y}[\log D(y)] + E_{x,z}[\log(1 - D(G(x, z)))] \tag{2} LGAN(G,D)=Ey[logD(y)]+Ex,z[log(1−D(G(x,z)))](2)
L L 1 ( G ) = E x , y , z [ ∥ y − G ( x , z ) ∥ 1 ] (3) L_{L1}(G) = E_{x,y,z}[\|y - G(x, z)\|_1] \tag{3} LL1(G)=Ex,y,z[∥y−G(x,z)∥1](3)
G ∗ = arg min G max D ( L c G A N ( G , D ) + λ L L 1 ( G ) ) (4) G^* = \arg\min_G \max_D (L_{cGAN}(G, D) + \lambda L_{L1}(G)) \tag{4} G∗=argGminDmax(LcGAN(G,D)+λLL1(G))(4)
在没有 z z z的情况下,网络仍然可以从 x x x到 y y y学习映射,但会产生确定性输出,因此无法匹配除了Delta函数以外的任何分布。过去的条件GAN已经承认了这一点,并且在生成器的输入中提供了高斯噪声 z z z,除了 x x x之外(例如,[52])。在初始实验中,我们发现这种策略并不有效 - 生成器只是学会忽略噪声 - 这与Mathieu等人的研究一致[37]。相反,对于我们的最终模型,我们只在生成器的几层上以Dropout的形式提供噪声,这在训练和测试时都会应用。尽管有Dropout的噪声,我们观察到网络的输出只有微小的随机性。设计能够产生高度随机输出的条件GAN,并因此捕捉所建模条件分布的全部熵,是目前工作中未解决的重要问题。
为了使生成器能够绕过瓶颈,以传递类似信息,我们添加了跳跃连接,遵循"U-Net" [47]的一般形状。具体来说,我们在每个层 i i i和层 n − i n - i n−i之间添加跳跃连接,其中 n n n是总层数。每个跳跃连接简单地将层 i i i和层 n − i n - i n−i中的所有通道连接起来。
这激发了将GAN鉴别器限制为仅模拟高频结构,依靠L1项来强制低频正确性(方程4)。为了模拟高频,将注意力限制在局部图像块的结构上就足够了。因此,我们设计了一个鉴别器架构 - 我们称之为PatchGAN - 它仅对图像块尺度上的结构进行惩罚。该鉴别器试图对图像中的每个 N × N N × N N×N块进行分类,判断其是否为真实的或伪造的。我们通过卷积在整个图像上运行此鉴别器,平均所有响应以提供 D D D的最终输出。
在第4.4节中,我们证明 N N N可以远小于图像的完整尺寸,仍然能够产生高质量的结果。这是有利的,因为较小的PatchGAN具有较少的参数,运行速度更快,可以应用于任意大的图像。
自论文和我们的pix2pix代码库首次发布以来,Twitter社区,包括计算机视觉和图形领域的从业者以及艺术家,已经成功地将我们的框架应用于多种新颖的图像到图像转换任务,远远超出了原始论文的范围。图10仅展示了#pix2pix标签下的一些示例,例如素描→肖像、"Do as I Do"姿势转移、深度→街景、背景去除、调色板生成、素描→宝可梦,以及广受欢迎的#edges2cats。
