图像到图像的转换是一类涉及视觉和图形问题的任务,其目标是通过一组配准的图像对训练集来学习将输入图像映射到输出图像。然而,在许多任务中,很难获得配对的训练数据。我们提出了一种方法,用于在没有配对样本的情况下学习从源领域 X X X 到目标领域 Y Y Y 的图像转换。我们的目标是学习一个映射 G : X → Y G: X \rightarrow Y G:X→Y,使得从 G ( X ) G(X) G(X) 产生的图像分布在使用对抗性损失时与领域 Y 的分布不可区分。由于这种映射存在很大的不确定性,因此我们引入了一个逆映射 F : Y → X F: Y \rightarrow X F:Y→X,并引入循环一致性损失来强制执行 F ( G ( X ) ) ≈ X F(G(X)) \approx X F(G(X))≈X(反之亦然)。我们在多个任务中展示了没有配对训练数据的定性结果,包括风格转换、物体变形、季节转换、照片增强等。通过与几种先前方法进行定量比较,证明了我们方法的优越性。
这个问题可以更广泛地描述为图像到图像的转换,将一个给定场景的表示, x x x,转换为另一个表示, y y y,例如,从灰度到彩色、从图像到语义标签、从边缘图到照片。多年来,在监督设置下,计算机视觉、图像处理、计算摄影和图形学领域的研究已经产生了强大的翻译系统,其中可以获得示例图像对 { x i , y i } i = 1 N \{x_i, y_i\}_{i=1}^N {xi,yi}i=1N (图2,左),例如[11, 19, 22, 23, 28, 33, 45, 56, 58, 62]。然而,获得配对的训练数据可能会很困难和昂贵。例如,对于语义分割等任务,只有少数几个数据集存在(例如[4]),而且它们相对较小。对于艺术风格化等图形任务获得输入-输出对甚至更加困难,因为所需的输出非常复杂,通常需要艺术创作。对于许多任务,如物体变形(例如斑马↔马,图1中上方),期望的输出甚至没有明确定义。
图2: 配对训练数据(左侧)包括训练示例 { x i , y i x_i, y_i xi,yi},其中 x i x_i xi与 y i y_i yi之间存在对应关系[22]。相反,我们考虑了不配对的训练数据(右侧),由源集合 { x i x_i xi}( x i ∈ X x_i \in X xi∈X)和目标集合 { y j y_j yj}( y j ∈ Y y_j \in Y yj∈Y)组成,但没有提供哪个 x i x_i xi与哪个 y j y_j yj相对应的信息。
因此,我们寻求一种算法,可以在没有配对的输入-输出示例的情况下学习在领域之间进行转换(图2,右)。我们假设领域之间存在某种基本关系------例如,它们是同一基础场景的两种不同呈现方式------并试图学习该关系。虽然我们缺乏配对示例形式的监督,但我们可以在集合级别上利用监督:我们在领域 X X X中给定一组图像,以及在领域 Y Y Y中给定另一组图像。我们可以训练一个映射 G : X → Y G: X \rightarrow Y G:X→Y,使得输出 y ′ = G ( x ) y' = G(x) y′=G(x),其中 x ∈ X x \in X x∈X,通过一个对抗性分类器训练来使其与领域 Y Y Y中的图像 y ∈ Y y \in Y y∈Y难以区分。在理论上,这个目标可以引出一个关于 y ′ y' y′的输出分布,该分布与经验分布 p data ( y ) p_{\text{data}}(y) pdata(y)相匹配(一般来说,这需要 G G G是随机的)[16]。这样,最优的 G G G将领域 X X X转换为与 Y Y Y的分布完全相同的领域 Y ′ Y' Y′。
然而,这样的转换并不保证一个个体输入 x x x和输出 y y y在有意义的方式上成对匹配------存在无限多个映射 G G G,会导致相同的 y ′ y' y′分布。此外,实际上,我们发现难以单独优化对抗性目标:标准程序常常导致众所周知的模式坍塌问题,其中所有输入图像映射到同一输出图像,优化无法取得进展。
这些问题要求我们为目标添加更多的结构。因此,我们利用了翻译应该是"循环一致"的属性,即如果我们将一个句子从英语翻译成法语,然后再从法语翻译回英语,我们应该回到原始句子。从数学上讲,如果我们有一个翻译器 G : X → Y G: X \rightarrow Y G:X→Y和另一个翻译器 F : Y → X F: Y \rightarrow X F:Y→X,则 G G G和 F F F应该是彼此的逆映射,而且两个映射都应该是双射。我们通过同时训练映射 G G G和 F F F,并添加循环一致性损失[64],鼓励 F ( G ( x ) ) ≈ x F(G(x)) \approx x F(G(x))≈x和 G ( F ( y ) ) ≈ y G(F(y)) \approx y G(F(y))≈y。将这个损失与领域 X X X和 Y Y Y上的对抗性损失相结合,就得到我们用于非配对图像到图像转换的完整目标。
循环一致性 使用传递性作为规范化结构化数据的方法有着悠久的历史。在视觉跟踪中,强制简单的前向-后向一致性已经是几十年来的标准技巧 [24, 48]。在语言领域,通过"回译和协调"来验证和改进翻译是人类翻译员[3](包括幽默地,马克·吐温[51])以及机器[17]使用的技术。最近,在运动结构 [61]、3D形状匹配 [21]、共分割 [55]、密集语义对齐 [65, 64] 和深度估计 [14] 方面,更高阶的循环一致性已被使用。其中,Zhou等人[64]和Godard等人[14]最接近我们的工作,因为他们使用循环一致性损失作为使用传递性监督CNN训练的一种方式。在这项工作中,我们引入了类似的损失,以使 G G G和 F F F彼此一致。与我们的工作同时进行的是,在这些相同的会议中,Yi等人[59]独立地使用了类似的目标进行无配对图像到图像的转换,受到了机器翻译中的双向学习的启发。
我们的目标是在给定训练样本 { x i } i = 1 N \{x_i\}{i=1}^N {xi}i=1N,其中 x i ∈ X x_i \in X xi∈X,和 { y j } j = 1 M \{y_j\}{j=1}^M {yj}j=1M,其中 y j ∈ Y y_j \in Y yj∈Y ^1^的情况下,学习两个领域 X X X 和 Y Y Y 之间的映射函数。我们将数据分布表示为 x ∼ p data ( x ) x \sim p_{\text{data}}(x) x∼pdata(x) 和 y ∼ p data ( y ) y \sim p_{\text{data}}(y) y∼pdata(y)。如图3(a)所示,我们的模型包括两个映射 G : X → Y G : X \rightarrow Y G:X→Y 和 F : Y → X F : Y \rightarrow X F:Y→X。此外,我们引入两个对抗性鉴别器 D X D_X DX 和 D Y D_Y DY,其中 D X D_X DX 旨在区分图像 { x } \{x\} {x} 和翻译后的图像 { F ( y ) } \{F(y)\} {F(y)},同样地, D Y D_Y DY 旨在区分 { y } \{y\} {y} 和 { G ( x ) } \{G(x)\} {G(x)}。我们的目标包含两种类型的项:对抗性损失 [16] 用于使生成的图像分布与目标领域中的数据分布匹配;循环一致性损失用于防止学习到的映射 G G G 和 F F F 相互矛盾。
我们对两个映射函数都应用对抗性损失 [16]。对于映射函数 G : X → Y G : X \rightarrow Y G:X→Y 及其鉴别器 D Y D_Y DY,我们表达目标为:
L GAN ( G , D Y , X , Y ) = E y ∼ p data ( y ) [ log D Y ( y ) ] + E x ∼ p data ( x ) [ log ( 1 − D Y ( G ( x ) ) ) ] (1) L_{\text{GAN}}(G, D_Y, X, Y) = E_{y \sim p_{\text{data}}(y)}[\log D_Y(y)] + E_{x \sim p_{\text{data}}(x)}[\log(1 - D_Y(G(x)))] \tag{1} LGAN(G,DY,X,Y)=Ey∼pdata(y)[logDY(y)]+Ex∼pdata(x)[log(1−DY(G(x)))](1)
其中 G G G 试图生成类似于来自领域 Y Y Y 的图像 G ( x ) G(x) G(x),而 D Y D_Y DY 旨在区分翻译样本 G ( x ) G(x) G(x) 和真实样本 y y y。 G G G 旨在最小化这个目标,而对手 D D D 则试图将其最大化,即:
min G max D Y L GAN ( G , D Y , X , Y ) \min_G \max_{D_Y} L_{\text{GAN}}(G, D_Y, X, Y) GminDYmaxLGAN(G,DY,X,Y)
我们也为映射函数 F : Y → X F : Y \rightarrow X F:Y→X 及其鉴别器 D X D_X DX 引入类似的对抗性损失:
min F max D X L GAN ( F , D X , Y , X ) \min_F \max_{D_X} L_{\text{GAN}}(F, D_X, Y, X) FminDXmaxLGAN(F,DX,Y,X)
L cyc ( G , F ) = E x ∼ p data ( x ) [ ∥ F ( G ( x ) ) − x ∥ 1 ] + E y ∼ p data ( y ) [ ∥ G ( F ( y ) ) − y ∥ 1 ] (2) L_{\text{cyc}}(G, F) = E_{x \sim p_{\text{data}}(x)}[\|F(G(x)) - x\|1] + E{y \sim p_{\text{data}}(y)}[\|G(F(y)) - y\|_1] \tag{2} Lcyc(G,F)=Ex∼pdata(x)[∥F(G(x))−x∥1]+Ey∼pdata(y)[∥G(F(y))−y∥1](2)
在初步实验中,我们还尝试了将此损失中的 L1 范数替换为 F ( G ( x ) ) F(G(x)) F(G(x)) 和 x x x 之间的对抗性损失,以及 G ( F ( y ) ) G(F(y)) G(F(y)) 和 y y y 之间的对抗性损失,但没有观察到性能改善。
循环一致性损失引发的行为可以在图4中观察到:重构图像 F ( G ( x ) ) F(G(x)) F(G(x)) 最终与输入图像 x x x 非常相似。
图4: 输入图像 x x x,输出图像 G ( x ) G(x) G(x) 和从各种实验中重构的图像 F ( G ( x ) ) F(G(x)) F(G(x))。从上到下分别是:照片↔塞尚风格,马↔斑马,冬季→夏季优胜美地,航拍照片↔谷歌地图。
3.3. 完整目标
我们的完整目标为:
L ( G , F , D X , D Y ) = L GAN ( G , D Y , X , Y ) + L GAN ( F , D X , Y , X ) + λ L cyc ( G , F ) (3) L(G, F, D_X, D_Y) = L_{\text{GAN}}(G, D_Y, X, Y) + L_{\text{GAN}}(F, D_X, Y, X) + \lambda L_{\text{cyc}}(G, F) \tag{3} L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F)(3)
其中 λ \lambda λ 控制了两个目标的相对重要性。我们的目标是解决:
G ∗ , F ∗ = arg min G , F max D X , D Y L ( G , F , D X , D Y ) G^*, F^* = \arg \min_{G,F} \max_{D_X, D_Y} L(G, F, D_X, D_Y) G∗,F∗=argG,FminDX,DYmaxL(G,F,DX,DY)
需要注意的是,我们的模型可以被视为训练了两个"自动编码器"[20]:我们共同学习一个自动编码器 F ∘ G : X → X F \circ G: X \rightarrow X F∘G:X→X 以及另一个 G ∘ F : Y → Y G \circ F: Y \rightarrow Y G∘F:Y→Y。然而,这些自动编码器每个都具有特殊的内部结构:它们通过将图像转换为另一个领域中的翻译来将图像映射到自身。这样的设置也可以被视为"对抗性自动编码器"的特殊情况[34],该自动编码器使用对抗性损失来训练自动编码器的瓶颈层,以匹配任意的目标分布。在我们的情况下, X → X X \rightarrow X X→X 自动编码器的目标分布是领域 Y Y Y 的分布。
在第5.1.4节中,我们将我们的方法与仅使用对抗性损失 L GAN L_{\text{GAN}} LGAN 或仅使用循环一致性损失 L cyc L_{\text{cyc}} Lcyc 的消融结果进行比较,并经验性地表明两个目标在实现高质量结果方面起到了关键作用。我们还在单向循环损失的情况下进行了评估,表明单个循环不足以规范这个不受约束的问题的训练。
训练细节 我们采用了近期工作中的两种技术来稳定模型训练过程。首先,在 LGAN(公式 1)中,我们将负对数似然目标替换为最小二乘损失 [35]。这个损失在训练过程中更加稳定,生成了更高质量的结果。特别地,对于 GAN 损失 LGAN(G, D, X, Y),我们训练 G 以最小化 E x ∼ p data ( x ) [ ( D ( G ( x ) ) − 1 ) 2 ] E_{x \sim p_{\text{data}}(x)}[(D(G(x)) - 1)^2] Ex∼pdata(x)[(D(G(x))−1)2],训练 D 以最小化 E y ∼ p data ( y ) [ ( D ( y ) − 1 ) 2 ] + E x ∼ p data ( x ) [ D ( G ( x ) ) 2 ] E_{y \sim p_{\text{data}}(y)}[(D(y) - 1)^2] + E_{x \sim p_{\text{data}}(x)}[D(G(x))^2] Ey∼pdata(y)[(D(y)−1)2]+Ex∼pdata(x)[D(G(x))2]。
BiGAN/ALI [9, 7] 无条件 GAN [16] 学习一个生成器 G: Z → X,将随机噪声 z 映射到图像 x。BiGAN [9] 和 ALI [7] 提出还要学习逆映射函数 F: X → Z。虽然它们最初是设计用于将潜在向量 z 映射到图像 x,但我们实现了相同的目标,将源图像 x 映射到目标图像 y。
在表4和表5中,我们与我们的完整损失的消融进行了比较。移除 GAN 损失会显著降低结果,移除循环一致性损失也是如此。因此,我们得出结论,这两个术语对我们的结果都至关重要。我们还在只有一个方向的情况下评估了我们的方法的循环损失:GAN + 正向循环损失 E x ∼ p data ( x ) [ ∣ ∣ F ( G ( x ) ) − x ∣ ∣ 1 ] E_{x \sim p_{\text{data}}(x)}[||F(G(x)) - x||1] Ex∼pdata(x)[∣∣F(G(x))−x∣∣1],或 GAN + 反向循环损失 E y ∼ p data ( y ) [ ∣ ∣ G ( F ( y ) ) − y ∣ ∣ 1 ] E{y \sim p_{\text{data}}(y)}[||G(F(y)) - y||_1] Ey∼pdata(y)[∣∣G(F(y))−y∣∣1](公式 2),发现它往往会导致训练不稳定,并引发模式崩溃,尤其是被移除的映射方向。
图7: 在Cityscapes上训练的标签↔照片映射的不同变体。从左到右:输入,仅循环一致性损失,仅对抗损失,GAN + 正向循环一致性损失 ( F ( G ( x ) ) ≈ x F(G(x)) \approx x F(G(x))≈x),GAN + 反向循环一致性损失 ( G ( F ( y ) ) ≈ y G(F(y)) \approx y G(F(y))≈y),CycleGAN(我们的完整方法),和真实地面实况。仅Cycle和GAN + 反向都未能生成与目标域相似的图像。仅GAN和GAN + 正向都受到模式坍塌的困扰,产生与输入照片无关的相同标签映射。
5.1.5 图像重建质量
在图4中,我们展示了一些重建图像 F ( G ( x ) ) F(G(x)) F(G(x)) 的随机样本。我们观察到,这些重建图像往往与原始输入 x x x 在训练和测试时都很接近,即使在一个域代表着更加多样的信息,比如地图↔航拍照片。
从绘画中生成照片(图12) 对于绘画→照片,我们发现引入附加损失以鼓励映射保留输入和输出之间的颜色组成是有帮助的。具体而言,我们采用了 Taigman 等人 [49] 的技术,将生成器正则化为在将目标域的真实样本提供给生成器的输入时接近于恒等映射:即 L identity ( G , F ) = E y ∼ p data ( y ) [ ∣ ∣ G ( y ) − y ∣ ∣ 1 ] + E x ∼ p data ( x ) [ ∣ ∣ F ( x ) − x ∣ ∣ 1 ] L_{\text{identity}}(G, F) = E_{y \sim p_{\text{data}}(y)}[||G(y) - y||1] + E{x \sim p_{\text{data}}(x)}[||F(x) - x||_1] Lidentity(G,F)=Ey∼pdata(y)[∣∣G(y)−y∣∣1]+Ex∼pdata(x)[∣∣F(x)−x∣∣1]。在没有 Lidentity 的情况下,当没有必要时,生成器 G 和 F 可以自由地改变输入图像的色调。例如,在学习 Monet 的绘画与 Flickr 照片之间的映射时,生成器经常将白天的绘画映射到日落时拍摄的照片,因为在对抗性损失和循环一致性损失下,这样的映射可能同样有效。图9 展示了这个恒等映射损失的效果。
在图12中,我们展示了将 Monet 的绘画转换为照片的其他结果。这个图和图9展示了在训练集中包含的绘画上的结果,而在论文中的所有其他实验中,我们只评估和展示了测试集上的结果。因为训练集中没有配对数据,对于训练集中的绘画来说,想出一个合理的转换是一个非常有挑战性的任务。确实,由于 Monet 不再能够创作新的绘画,对于看不见的"测试集"绘画的泛化并不是一个紧迫的问题。
Y. Aytar, L. Castrejon, C. Vondrick, H. Pirsiavash, and A. Torralba. Cross-modal scene networks. PAMI, 2016.
K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan. Unsupervised pixel-level domain adaptation with generative adversarial networks. In CVPR, 2017.
R. W. Brislin. Back-translation for cross-cultural research. Journal of cross-cultural psychology, 1(3):185--216, 1970.
M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016.
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 2009.
E. L. Denton, S. Chintala, R. Fergus, et al. Deep generative image models using a Laplacian pyramid of adversarial networks. In NIPS, 2015.
J. Donahue, P. Kr¨ahenb¨uhl, and T. Darrell. Adversarial feature learning. In ICLR, 2017.
A. Dosovitskiy and T. Brox. Generating images with perceptual similarity metrics based on deep networks. In NIPS, 2016.
V. Dumoulin, I. Belghazi, B. Poole, A. Lamb, M. Arjovsky, O. Mastropietro, and A. Courville. Adversarially learned inference. In ICLR, 2017.
A. A. Efros and T. K. Leung. Texture synthesis by non-parametric sampling. In ICCV, 1999.
D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In ICCV, 2015.
L. A. Gatys, M. Bethge, A. Hertzmann, and E. Shechtman. Preserving color in neural artistic style transfer. arXiv preprint arXiv:1606.05897, 2016.
L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016.
C. Godard, O. Mac Aodha, and G. J. Brostow. Unsupervised monocular depth estimation with left-right consistency. In CVPR, 2017.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, 2014.
D. He, Y. Xia, T. Qin, L. Wang, N. Yu, T. Liu, and W.-Y. Ma. Dual learning for machine translation. In NIPS, 2016.
K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. In SIGGRAPH, 2001.
G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504--507, 2006.
Q.-X. Huang and L. Guibas. Consistent shape maps via semidefinite programming. In Symposium on Geometry Processing, 2013.
P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017.
J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In ECCV, 2016.
Z. Kalal, K. Mikolajczyk, and J. Matas. Forward-backward error: Automatic detection of tracking failures. In ICPR, 2010.
L. Karacan, Z. Akata, A. Erdem, and E. Erdem. Learning to generate images of outdoor scenes from attributes and semantic layouts. arXiv preprint arXiv:1612.00215, 2016.
D. Kingma and J. Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
D. P. Kingma and M. Welling. Auto-encoding variational Bayes. ICLR, 2014.
P.-Y. Laffont, Z. Ren, X. Tao, C. Qian, and J. Hays. Transient attributes for high-level understanding and editing of outdoor scenes. ACM TOG, 33(4):149, 2014.
C. Ledig, L. Theis, F. Huszár, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al. Photo-realistic single image super-resolution using a generative adversarial network. In CVPR, 2017.
C. Li and M. Wand. Precomputed real-time texture synthesis with Markovian generative adversarial networks. ECCV, 2016.
M.-Y. Liu, T. Breuel, and J. Kautz. Unsupervised image-to-image translation networks. In NIPS, 2017.
M.-Y. Liu and O. Tuzel. Coupled generative adversarial networks. In NIPS, 2016.
J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey. Adversarial autoencoders. In ICLR, 2016.
X. Mao, Q. Li, H. Xie, R. Y. Lau, Z. Wang, and S. P. Smolley. Least squares generative adversarial networks. In CVPR. IEEE, 2017.
M. Mathieu, C. Couprie, and Y. LeCun. Deep multi-scale video prediction beyond mean square error. In ICLR, 2016.
M. F. Mathieu, J. Zhao, A. Ramesh, P. Sprechmann, and Y. LeCun. Disentangling factors of variation in deep representation using adversarial training. In NIPS, 2016.
D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros. Context encoders: Feature learning by inpainting. CVPR, 2016.
A. Radford, L. Metz, and S. Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. In ICLR, 2016.
R. ˇS. Radim Tyleˇcek. Spatial pattern templates for recognition of objects with regular structure. In Proc. GCPR, Saarbrucken, Germany, 2013.
S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. In ICML, 2016.
R. Rosales, K. Achan, and B. J. Frey. Unsupervised image translation. In ICCV, 2003.
T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen. Improved techniques for training GANs. In NIPS, 2016.
P. Sangkloy, J. Lu, C. Fang, F. Yu, and J. Hays. Scribbler: Controlling deep image synthesis with sketch and color. In CVPR, 2017.
Y. Shih, S. Paris, F. Durand, and W. T. Freeman. Data-driven hallucination of different times of day from a single outdoor photo. ACM TOG, 32(6):200, 2013.
A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb. Learning from simulated and unsupervised images through adversarial training. In CVPR, 2017.
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
N. Sundaram, T. Brox, and K. Keutzer. Dense point trajectories by GPU-accelerated large displacement optical flow. In ECCV, 2010.
Y. Taigman, A. Polyak, and L. Wolf. Unsupervised cross-domain image generation. In ICLR, 2017.
D. Turmukhambetov, N. D. Campbell, S. J. Prince, and J. Kautz. Modeling object appearance using context-conditioned component analysis. In CVPR, 2015.
M. Twain. The jumping frog: in English, then in French, and then clawed back into a civilized language once more by patient. Unremunerated Toil, 3, 1903.
D. Ulyanov, V. Lebedev, A. Vedaldi, and V. Lempitsky. Texture networks: Feed-forward synthesis of textures and stylized images. In ICML, 2016.
D. Ulyanov, A. Vedaldi, and V. Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.
C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In NIPS, 2016.
F. Wang, Q. Huang, and L. J. Guibas. Image co-segmentation via consistent functional maps. In ICCV, 2013.
X. Wang and A. Gupta. Generative image modeling using style and structure adversarial networks. In ECCV, 2016.
J. Wu, C. Zhang, T. Xue, B. Freeman, and J. Tenenbaum. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling. In NIPS, 2016.
S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, 2015.
Z. Yi, H. Zhang, T. Gong, Tan, and M. Gong. Dual-GAN: Unsupervised dual learning for image-to-image translation. In ICCV, 2017.
A. Yu and K. Grauman. Fine-grained visual comparisons with local learning. In CVPR, 2014.
C. Zach, M. Klopschitz, and M. Pollefeys. Disambiguating visual relations using loop constraints. In CVPR, 2010.
R. Zhang, P. Isola, and A. A. Efros. Colorful image colorization. In ECCV, 2016.
J. Zhao, M. Mathieu, and Y. LeCun. Energy-based generative adversarial network. In ICLR, 2017.
T. Zhou, P. Krahenbuhl, M. Aubry, Q. Huang, and A. A. Efros. Learning dense correspondence via 3D-guided cycle consistency. In CVPR, 2016.
T. Zhou, Y. J. Lee, S. Yu, and A. A. Efros. Flowweb: Joint image set alignment by weaving consistent, pixel-wise correspondences. In CVPR, 2015.
J.-Y. Zhu, P. Kr¨ahenb¨uhl, E. Shechtman, and A. A. Efros. Generative visual manipulation on the natural image manifold. In ECCV, 2016.