图4:使用Shape Predictor 68 Face Landmarks返回的坐标创建的眼睛、鼻子和嘴巴的面具
3.4 图像锐化(Image Sharpening)
图像锐化被认为是一种强调高频的滤波技术,用于增强图像细节 。高频是由亮度或颜色在局部发生变化的特性,它在识别关键点时很有用。图像锐化可以通过高提升滤波来实现。这包括通过从输入图像中减去一个低通图像来生成一个高通图像,如公式(1)所示。在这个过程中,通过将输入图像乘以一个常数,得到一个强调高频的图像。
g ( x , y ) = A f ( x , y ) − f L ( x , y ) (1) g(x,y)=Af(x,y)−f_L(x,y)\tag{1} g(x,y)=Af(x,y)−fL(x,y)(1)
我们提出的方法其主要目标是实现身份证照片与韩国肖像之间的风格转移。让 X X X和 Y Y Y分别表示三维彩色图像(身份证照片)和韩国肖像的域(domains)。这些域是 X ⊆ R H × W × C X\subseteq{\mathbb{R}^{H×W×C}} X⊆RH×W×C和 Y ⊆ R H × W × C Y\subseteq{\mathbb{R}^{H×W×C}} Y⊆RH×W×C的子集,并具有集合关系,即 x ∈ X x\in{X} x∈X和 y ∈ Y y\in{Y} y∈Y。
生成器被训练来进行 ( X , Y ) → ( Y , X ) (X,Y)\rightarrow(Y,X) (X,Y)→(Y,X)的映射,生成兼具 X X X的内容(content)和 Y Y Y的风格(style)的虚假图像 G ( x , y ) = ( x y , y x ) G(x,y)=(x_y,y_x) G(x,y)=(xy,yx),这在本研究中用作评估。
特别地,它可以表示为 x ≈ G ( G ( x , y ) ) = G ( x y , y x ) = x x x\approx{G(G(x,y))}=G(x_y,y_x)=x_x x≈G(G(x,y))=G(xy,yx)=xx和 y ≈ G ( G ( y , x ) ) = G ( y x , x y ) = y y y\approx{G(G(y,x))}=G(y_x,x_y)=y_y y≈G(G(y,x))=G(yx,xy)=yy。这可以用公式(3)表示。
L c y = E x ∼ P ( X ) ∥ x x − x ∥ + E y ∼ P ( Y ) ∥ y y − y ∥ (3) L_{cy}=\mathbb{E}{x\sim{P(X)}}\lVert{x_x}-x\rVert+\mathbb{E}{y\sim{P(Y)}}\lVert{y_y}-y\rVert\tag{3} Lcy=Ex∼P(X)∥xx−x∥+Ey∼P(Y)∥yy−y∥(3)
现有的风格转移方法会从几何上扭曲脸部的形状,导致难以识别面部形状。为了保持角色的身份,需要一个新的条件。因此,本研究基于面部关键点遮罩定义了地块损失(land loss) ,这有助于在增强风格转移的性能时保留眼睛、鼻子和嘴巴。在这项研究中,地块损失由数学表达式公式(4)定义。
L l = L l e y e + L l n o s e + L l l i p (4) L_l=L_{l_{eye}}+L_{l_{nose}}+L_{l_{lip}}\tag{4} Ll=Lleye+Llnose+Lllip(4)
地块损失是一个旨在保持由生成器生成的输入和输出图像的关键点特征的函数。
图像对 ( x y , x ) (x_y,x) (xy,x)和 ( y x , y ) (y_x,y) (yx,y)包含具有不同风格的相同内容,并且关键点形状相同。
如第3节所述,用于眼睛、鼻子和嘴巴区域的遮罩 M f X M_{fX} MfX和 M f Y M_{fY} MfY用于计算面积。
这个过程在等式(5)中表示。每个关键点的差异基于L1损失 。
L f = E x ∼ P ( X ) ∥ x y ⊙ M f X − x ⊙ M f X ∥ 1 + E y ∼ P ( Y ) ∥ y x ⊙ M f Y − y ⊙ M f Y ∥ 1 , f = { l e y e , l n o s e , l l i p } (5) L_f=\mathbb{E}{x\sim{P(X)}}\lVert{x_y}\odot{M{fX}}-x\odot{M_{fX}}\rVert_1+\mathbb{E}{y\sim{P(Y)}}\lVert{y_x}\odot{M{fY}}-y\odot{M_{fY}}\rVert_1,{\quad}f=\{l_{eye},l_{nose},l_{lip}\}\tag{5} Lf=Ex∼P(X)∥xy⊙MfX−x⊙MfX∥1+Ey∼P(Y)∥yx⊙MfY−y⊙MfY∥1,f={leye,lnose,llip}(5)
译者注:
以上等式表示了地块损失的数学形式。这里的 L f L_f Lf表示地块损失,它计算了生成的伪造图像与原始图像之间眼睛、鼻子和嘴巴区域的差异。
E x ∼ P ( X ) \mathbb{E}{x\sim{P(X)}} Ex∼P(X)和 E y ∼ P ( Y ) \mathbb{E}{y\sim{P(Y)}} Ey∼P(Y)分别是来自域X和域Y的期望值。
⊙ \odot ⊙表示哈达玛积(逐元素乘积)。
M f X M_{fX} MfX和 M f Y M_{fY} MfY分别是用于X和Y的面部地块掩码,用于突出眼睛、鼻子和嘴唇的区域。
f = { l e y e , l n o s e , l l i p } f=\{l_{eye},l_{nose},l_{lip}\} f={leye,lnose,llip}指示眼睛、鼻子和嘴唇的地块。
为了解决这个问题,提出了一种头部损失(head loss) ,以最小化结果和风格图像(韩国肖像)的头部区域之间的差异 ,头部区域被分为Gat和头发区域,由掩码 M h t M_{ht} Mht和 M h r M_{hr} Mhr表示。头部损失利用Gat不覆盖眉毛的事实;因此,使用眉毛上方的坐标对应的特征点来定义头部区域,然后将相应的风格转移到结果图像上。这一点可以通过等式(6)来表示。
L h = E x ∼ P ( X ) ∥ x y ⊙ M h t − y ⊙ M h t ∥ 1 + E y ∼ P ( Y ) ∥ y x ⊙ M h r − x ⊙ M h r ∥ 1 (6) L_h=\mathbb{E}{x\sim{P(X)}}\lVert{x_y}\odot{M{ht}}-y\odot{M_{ht}}\rVert_1+\mathbb{E}{y\sim{P(Y)}}\lVert{y_x}\odot{M{hr}}-x\odot{M_{hr}}\rVert_1\tag{6} Lh=Ex∼P(X)∥xy⊙Mht−y⊙Mht∥1+Ey∼P(Y)∥yx⊙Mhr−x⊙Mhr∥1(6)
因此,内容和风格损失是基于层特征进行配置的。风格损失使用gram矩阵来定义 ,该矩阵是通过计算特征映射的内积来获得的。通过实验获得的最佳层集合用于定义风格损失,如等式(7)所示,其中N和M分别代表每层的乘积和通道,g代表特征映射的gram矩阵。通过训练以最小化两侧( x y x_y xy和 y x y_x yx)的特征映射之间的gram矩阵的差异,可以将y的风格转移到x上。
L s = 1 4 N 2 M 2 ∑ [ ( g i ( x y ) − g i ( y ) ) 2 + ( g i ( y x ) − g i ( x ) ) 2 ] (7) L_{s}=\frac{1}{4N^{2}M^{2}}\sum[(g_{i}(x_{y})-g_{i}(y))^{2}+(g_{i}(y_{x})-g_{i}(x))^{2}]\tag{7} Ls=4N2M21∑[(gi(xy)−gi(y))2+(gi(yx)−gi(x))2](7)
内容损失被定义为一种在像素级最小化特征映射线性差异的方法 。由于风格转换的目的是在转移风格的同时保持图像的内容,所以不需要考虑相关性。内容损失的方程与等式(8)中的相同。这是保持人的身份的关键因素;然而,如果这个损失的权重非常大,可能会导致风格转换效果不佳。因此,必须选择适当的超参数以达到期望的结果。
L c = E x ∼ P ( X ) [ l i ( x y ) − l i ( x ) ] 2 + E y ∼ P ( Y ) [ l i ( y x ) − l i ( y ) ] 2 (8) L_c=\mathbb{E}{x\sim{P(X)}}[l_i(x_y)-l_i(x)]^2+\mathbb{E}{y\sim{P(Y)}}[l_i(y_x)-l_i(y)]^2\tag{8} Lc=Ex∼P(X)[li(xy)−li(x)]2+Ey∼P(Y)[li(yx)−li(y)]2(8)
生成器的损失由循环损失、地块损失、头部损失、风格损失和内容损失组成
如等式(9)所示。每个损失都乘以不同的超参数,然后将得到的值的和用作生成器的损失函数。
L G = λ c y L c y + λ l L l + λ h L h + λ s L s + λ c L c (9) L_G=\lambda_{cy}L_{cy}+\lambda_lL_l+\lambda_hL_h+\lambda_sL_s+\lambda_cL_c\tag{9} LG=λcyLcy+λlLl+λhLh+λsLs+λcLc(9)
如果 x y x_y xy和 y x y_x yx的片段是假的,而x和y的片段被真实分类,那么损失函数就会减小。
L D = E x ∼ P ( X ) [ ( D x ( y ) − 1 ) 2 + ( D x ( x y ) ) 2 ] + E y ∼ P ( Y ) [ ( D y ( x ) − 1 ) 2 + ( D y ( y x ) ) 2 ] (10) L_{D}=\mathbb{E}{x\sim{P(X)}}[(D_x(y)-1)^2+(D_x(x_y))^2]+\mathbb{E}{y\sim{P(Y)}}[(D_y(x)-1)^2+(D_y(y_x))^2]\tag{10} LD=Ex∼P(X)[(Dx(y)−1)2+(Dx(xy))2]+Ey∼P(Y)[(Dy(x)−1)2+(Dy(yx))2](10)
本研究中使用的总损失由等式(11)表示,由生成器和判别器损失组成。
生成器试图最小化生成器损失以生成风格转换结果
判别器则旨在最小化判别器损失以提高其区分能力
在生成器和判别器性能之间观察到权衡,其中一个改善,另一个则减小。因此,通过在生成器和判别器之间形成竞争关系来优化总损失,从而导致优越的结果。
L T o t a l = m i n G m i n D ( L G + L D ) (11) L_{Total}=\mathop{min}\limits_{G}\mathop{min}\limits_{D}(L_G+L_D)\tag{11} LTotal=GminDmin(LG+LD)(11)
表1显示了由1,054张ID照片和1,736张韩国肖像组成的结果数据集,其中96%用于训练,4%用于测试。由于肖像数量有限,因此使用了更高比例的训练数据,并且测试集没有应用数据增强。由于可以从测试数据生成的组合数量庞大( X T e s t × Y T e s t X_{Test}\times{Y_{Test}} XTest×YTest),评估并未出现问题。以前的研究强调了数据预处理的重要性,本研究的结果进一步支持了其对训练性能的影响。
为了在损失函数之间匹配等式,将 λ c y \lambda_{cy} λcy设置为50,这比其他损失的值相对较低。为了增加风格转移的效果,将 λ s \lambda_s λs设置为1,将 λ h \lambda_h λh设置为0.5,有助于在风格转移之间专注于头部区域。最后,通过设置 λ c = 0.1 λ_c=0.1 λc=0.1和 λ l = 0.2 λ_l=0.2 λl=0.2来进行训练。整个训练过程大约花费6.5小时。
相比之下,SSIM用于通过比较它们的结构、亮度和对比度特征来评估图像对之间的图像相似性的失真。等式(13)用于计算SSIM,涉及各种与概率有关的定义,如均值、标准偏差和协方差。
P S N R ( A , B ) = 10 log 10 ( M A X 2 ∑ ( A − B ) 2 ) (12) PSNR(A,B)=10\log_{10}(\frac{MAX^{2}}{\sum (A-B)^{2}})\tag{12} PSNR(A,B)=10log10(∑(A−B)2MAX2)(12)
S S I M ( A , B ) = ( 2 μ A μ B + C 1 ) ( 2 σ A B + C 2 ) ( 2 μ A 2 + μ B 2 + C 1 ) ( σ A 2 + σ B 2 + C 2 ) (13) SSIM(A,B)=\frac{(2\mu_{A}\mu_{B}+C_{1})(2\sigma_{AB}+C_{2})}{(2\mu_{A}^{2}+\mu_{B}^{2}+C_{1})(\sigma_{A}^{2}+\sigma_{B}^{2}+C_{2})}\tag{13} SSIM(A,B)=(2μA2+μB2+C1)(σA2+σB2+C2)(2μAμB+C1)(2σAB+C2)(13)
为了评估性能,指标按升序排序,得到一个由值 [ x 1 , x 2 , x 3 , x 4 , x 5 ] [x_1,x_2,x_3,x_4,x_5] [x1,x2,x3,x4,x5]表示的序列,其中代 x 3 x_3 x3表最佳结果。为了给中位数赋予更多权重,一个权重向量(w)被赋值为 [ 10 , 25 , 50 , 25 , 10 ] [10,25,50,25,10] [10,25,50,25,10],并使用等式(14)计算加权算术平均数。
性能使用等式(15)进行评估,该等式计算加权算术平均数与PSNR和SSIM值之间的差异的平方。所得到的值表示性能的程度,值越小表示性能越好。与平均权重( w a v g w_{avg} wavg)的差异的平方被加起来,得到一个较大的单向结果。最后,内容和风格的平方误差之和( E P S N R , E S S I M E_{PSNR},E_{SSIM} EPSNR,ESSIM)被呈现为性能评估的最终指标。
w a v g = ∑ i = 1 5 x i w i ∑ i = 1 5 w i (14) w_{avg}=\frac{\sum_{i=1}^{5}x_{i}w_{i}}{\sum_{i=1}^{5}w_{i}}\tag{14} wavg=∑i=15wi∑i=15xiwi(14)
E d = ( w a v g − x i ) 2 , d = { c o n t e n t , s t y l e } (15) E_{d}=(w_{avg}-x_{i})^{2},d=\{content,style\}\tag{15} Ed=(wavg−xi)2,d={content,style}(15)
内容和风格图像的PSNR值分别由 P C o n t e n t P_{Content} PContent和 P S t y l e P_{Style} PStyle表示,而 P C o n t e n t P_{Content} PContent和 P S t y l e P_{Style} PStyle分别计算内容和风格图像的SSIM值。 P C o n t e n t + P S t y l e P_{Content}+P_{Style} PContent+PStyle,即内容和风格的平方误差之和,被用作最终的度量标准。在不使用 L h L_h Lh时,内容的保留是最高的,而不使用 L c L_c Lc或 L s L_s Ls会导致内容和风格的损失。 L l L_l Ll在内容方面没有显著差异,而风格相对较高。因此,当使用所有损失函数时, E P S N R E_{PSNR} EPSNR和 E S S I M E_{SSIM} ESSIM是很好的评估指标。
图12显示了具有风格转移性能的内容保留性能生成的结果的分布。
当考虑PSNR时,与 L h L_h Lh有关的结果的分布与其他结果不同。与 L c L_c Lc有关的分布位于前半部分,与 L s L_s Ls有关的分布位于后半部分。然而, L T o t a l L_{Total} LTotal的分布相对靠近中心,偏差较小,使其成为最合适的结果。
在SSIM的情况下,分布形状与PSNR类似,但几个分布显示平行移动结果。 E S S I M E_{SSIM} ESSIM越小,分布越集中,表明性能越好。因此, L T o t a l L_{Total} LTotal的性能优于 L l L_l Ll,并且 L T o t a l L_{Total} LTotal的差异较小,在中心具有相似的分布。其他结果被认为是相对较差的结果,因为它们位于中心之外。
J. Si, J. Jeong, G. Kim, 和 S. Kim, "使用CycleGAN进行韩国肖像和ID照片的风格相互转换," 信息技术韩国研究所会议(KIIT), 页 147-149, 2020。
J. Zhu, T. Park, P. Isola, 和 A. A. Efros, "使用周期一致的对抗网络进行非配对图像到图像的转换," IEEE计算机视觉国际会议(ICCV), 页 2223-2232, 2017。
X. Huang 和 S. Belongie, "使用自适应实例规范化的实时任意风格转换," IEEE计算机视觉国际会议(ICCV), 页 1501-1510, 2017。
S. Huang, H. Xiong, T. Wang, Q. Wang, Z. Chen, J. Huan, 和 D. Dou, "参数自由风格投影用于任意风格转换," arXiv预印本 arXiv:2003.07694, 2020。
T. Zhu 和 S. Liu, "保持细节的任意风格转换," IEEE多媒体和博览会国际会议(ICME), 页 1-6, 2020。
M. Elad 和 P. Milanfar, "通过纹理合成进行风格转换," IEEE图像处理交易, 卷 26, 期 5, 页 2338-2351, 2017。
K. Simonyan 和 A. Zisserman, "用于大规模图像识别的非常深的卷积网络," 学习表示国际会议(ICLR), 页 1-14, 2015。
S. Li, X. Xu, L. Nie, 和 T. Chua, "拉普拉斯驱动的神经风格转换," ACM多媒体国际会议, 页 1716-1724, 2017。
C. Chen, X. Tan, 和 K. Y. K. Wong, "使用金字塔列特征的脸部素描合成与风格转换," IEEE计算机视觉应用冬季会议(WACV), 页 485-493, 2018。
B. Blakeslee, R. Ptucha, 和 A. Savakis, "FASTER ART-CNN: 极快的风格转换网络," IEEE西纽约图像和信号处理研讨会(WNYISPW), 页 1-5, 2018。
X. Liu, X. Li, M. Cheng, 和 P. Hall, "几何风格转换," arXiv预印本 arXiv:2007.05471, 2020。
P. Kaur, H. Zhang, 和 K. Dana, "逼真的面部纹理转换," IEEE计算机视觉应用会议(WACV), 页 2097-2105, 2019。
R. Yi, Y. Liu, Y. Lai, 和 P. Rosin, "使用分层GANs生成艺术人物肖像素描," IEEE/CVF计算机视觉和模式识别会议(CVPR), 页 10743-10752, 2019。
Z. Xu, M. Wilber, C. Fang, A. Hertzmann, 和 H. Jin, "从多领域艺术图像中学习任意风格转换," ACM/Eurographics计算美学和基于草图的接口和建模和非摄影动画和渲染会议(Expressive '19), 页 21-31, 2019。
R. Zhang, S. Tang, Y. Li, J. Guo, Y. Zhang, J. Li, 和 S. Yan, "通过生成对抗网络的风格分离和合成," ACM多媒体国际会议, 页 183-191, 2018。
D. Horita 和 K. Aizawa, "SLGAN: 风格和潜在引导的生成对抗网络,用于理想化化妆转换和去除," ACM亚洲多媒体国际会议, 页 1-8, 2022。
T. Li, R. Qian, C. Dong, S. Liu, Q. Yan, W. Zhu, 和 L. Lin, "BeautyGAN: 使用深度生成对抗网络的实例级面部化妆转移," ACM多媒体国际会议, 页 645-653, 2018。
H. Chang, J. Lu, F. Yu, 和 A. Finkelstein, "PairedCycleGAN: 用于施加和去除化妆的不对称风格转换," IEEE计算机视觉和模式识别会议(CVPR), 页 40-48, 2018。
R. Wu, X. Gu, X. Tao, X. Shen, Y. W. Tai, 和 J. Jia, "地标辅助CycleGAN用于卡通脸生成," arXiv预印本 arXiv:1907.01424, 2019。
S. Palsson, E. Agustsson, R. Timofte, 和 L. Van Gool, "面部老化的生成对抗风格转换网络," IEEE计算机视觉和模式识别研讨会(CVPRW), 页 2084-2092, 2018。
Z. Wang, Z. Liu, J. Huang, S. Lian, 和 Y. Lin, "你多大了? 使用GANs进行带身份保留的脸部年龄转换," arXiv预印本 arXiv:1909.04988, 2019。
R. Yi, Y. J. Liu, Y. K. Lai, 和 P. L. Rosin, "通过非对称周期映射的非配对肖像绘画生成," IEEE/CVF计算机视觉和模式识别会议(CVPR), 页 8217-8225, 2020。
L. A. Gatys, A. S. Ecker, 和 M. Bethge, "使用卷积神经网络的图像风格转换," IEEE计算机视觉和模式识别会议(CVPR), 页 2414-2423, 2016。
V. Kazemi 和 J. Sullivan, "一毫秒脸部对齐与回归树集合," IEEE计算机视觉和模式识别会议(CVPR), 页 1867-1874, 2014。
T. Miyato, T. Kataoka, M. Koyama, 和 Y. Yoshida, "生成对抗网络的谱归一化," 学习表示国际会议(ICLR), 页 1-10, 2018。
C. Li 和 M. Wand, "使用马尔可夫生成对抗网络的预计算实时纹理合成," 欧洲计算机视觉会议(ECCV), 页 702-716, 2016。
J. Si 和 S. Kim, "基于深度和背景运动估计的第一人称视频中的交通事故检测," 韩国信息技术研究所杂志(JKIIT), 卷 19, 期 3, 页 25-34, 2021。
A. Hor'e 和 D. Ziou, "图像质量度量:PSNR与SSIM," 国际模式识别会议(ICPR), 页 2366-2369, 2010。
References
Encyclopedia of Korean Culture. Available online: link (accessed on 2 May 2023).
J. Si, J. Jeong, G. Kim, and S. Kim, "Style Interconversion of Korean Portrait and ID Photo Using CycleGAN," Proc. of Korean Institute of Information Technology (KIIT), pages 147-149, 2020.
J. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired Image-To-Image Translation Using Cycle-Consistent Adversarial Networks," Proc. of the IEEE International Conf. on Computer Vision (ICCV), pages 2223-2232, 2017.
X. Huang and S. Belongie, "Arbitrary Style Transfer in Real-Time With Adaptive Instance Normalization," Proc. of the IEEE International Conf. on Computer Vision (ICCV), pages 1501-1510, 2017.
S. Huang, H. Xiong, T. Wang, Q. Wang, Z. Chen, J. Huan, and D. Dou, "Parameter-Free Style Projection for Arbitrary Style Transfer," arXiv preprint arXiv:2003.07694, 2020.
T. Zhu and S. Liu, "Detail-Preserving Arbitrary Style Transfer," Proc. of IEEE International Conf. on Multimedia and Expo (ICME), pages 1-6, 2020.
M. Elad and P. Milanfar, "Style Transfer Via Texture Synthesis," IEEE Transactions on Image Processing, vol. 26, no. 5, pages 2338-2351, 2017.
K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," Proc. of International Conf. on Learning Representations (ICLR), pages 1-14, 2015.
S. Li, X. Xu, L. Nie, and T. Chua, "Laplacian-Steered Neural Style Transfer," Proc. of ACM international conf. on Multimedia, pages 1716-1724, 2017.
C. Chen, X. Tan, and K. Y. K. Wong, "Face Sketch Synthesis with Style Transfer Using Pyramid Column Feature," Proc. of IEEE Winter Conf. on Applications of Computer Vision (WACV), pages 485-493, 2018.
B. Blakeslee, R. Ptucha, and A. Savakis, "FASTER ART-CNN: AN EXTREMELY FAST STYLE TRANSFER NETWORK," Proc. of IEEE Western New York Image and Signal Processing Workshop (WNYISPW), pages 1-5, 2018.
X. Liu, X. Li, M. Cheng, and P. Hall, "Geometric style transfer," arXiv preprint arXiv:2007.05471, 2020.
P. Kaur, H. Zhang, and K. Dana, "Photo-Realistic Facial Texture Transfer," Proc. of IEEE Conf. on Applications of Computer Vision (WACV), pages 2097-2105, 2019.
R. Yi, Y. Liu, Y. Lai, and P. Rosin, "APDrawingGAN: Generating Artistic Portrait Drawings From Face Photos With Hierarchical GANs," Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pages 10743-10752, 2019.
Z. Xu, M. Wilber, C. Fang, A. Hertzmann, and H. Jin, "Learning from multi-domain artistic images for arbitrary style transfer," Proc. of the ACM/Eurographics Expressive Symposium on Computational Aesthetics and Sketch-Based Interfaces and Modeling and Non-Photorealistic Animation and Rendering (Expressive '19), pages 21-31, 2019.
R. Zhang, S. Tang, Y. Li, J. Guo, Y. Zhang, J. Li, and S. Yan, "Style Separation and Synthesis via Generative Adversarial Networks," Proc. of the ACM International Conf. on Multimedia, pages 183-191, 2018.
D. Horita and K. Aizawa, "SLGAN: Style- and Latent-guided Generative Adversarial Network for Desirable Makeup Transfer and Removal," Proc. of the ACM International Conf. on Multimedia in Asia, pages 1-8, 2022.
T. Li, R. Qian, C. Dong, S. Liu, Q. Yan, W. Zhu, and L. Lin, "BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversarial Network," Proc. of the ACM international conf. on Multimedia, pages 645-653, 2018.
H. Chang, J. Lu, F. Yu, and A. Finkelstein, "PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup," Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 40-48, 2018.
R. Wu, X. Gu, X. Tao, X. Shen, Y. W. Tai, and J. Jia, "Landmark Assisted CycleGAN for Cartoon Face Generation," arXiv preprint arXiv:1907.01424, 2019.
S. Palsson, E. Agustsson, R. Timofte, and L. Van Gool, "Generative Adversarial Style Transfer Networks for Face Aging," Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition Workshops (CVPRW), pages 2084-2092, 2018.
Z. Wang, Z. Liu, J. Huang, S. Lian, and Y. Lin, "How Old Are You? Face Age Translation with Identity Preservation Using GANs," arXiv preprint arXiv:1909.04988, 2019.
R. Yi, Y. J. Liu, Y. K. Lai, and P. L. Rosin, "Unpaired portrait drawing generation via asymmetric cycle mapping," Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pages 8217-8225, 2020.
L. A. Gatys, A. S. Ecker, and M. Bethge, "Image Style Transfer Using Convolutional Neural Networks," Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 2414-2423, 2016.
V. Kazemi and J. Sullivan, "One millisecond face alignment with an ensemble of regression trees," Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 1867-1874, 2014.
T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida, "Spectral Normalization for Generative Adversarial Networks," Proc. of the International Conf. on Learning Representations (ICLR), pages 1-10, 2018.
C. Li and M. Wand, "Precomputed real-time texture synthesis with markovian generative adversarial networks," Proc. of the European Conf. on Computer Vision (ECCV), pages 702-716, 2016.
J. Si and S. Kim, "Traffic Accident Detection in First-Person Videos based on Depth and Background Motion Estimation," Journal of Korean Institute of Information Technology (JKIIT), vol. 19, no. 3, pages 25-34, 2021.
A. Hor'e and D. Ziou, "Image Quality Metrics: PSNR vs. SSIM," Proc. of the International Conf. on Pattern Recognition (ICPR), pages 2366-2369, 2010.
n generative adversarial networks," Proc. of the European Conf. on Computer Vision (ECCV), pages 702-716, 2016.
J. Si and S. Kim, "Traffic Accident Detection in First-Person Videos based on Depth and Background Motion Estimation," Journal of Korean Institute of Information Technology (JKIIT), vol. 19, no. 3, pages 25-34, 2021.
A. Hor'e and D. Ziou, "Image Quality Metrics: PSNR vs. SSIM," Proc. of the International Conf. on Pattern Recognition (ICPR), pages 2366-2369, 2010.