探索 GAN 的演变之路

2014 年,在论文Generative Adversarial Networks中,首次提出了 GAN,其核心思想是"生成"与"对抗"。GAN 由一个生成器 G(Generator)和一个判别器 D(Discriminator)构成,前者用于捕捉数据分布,后者用于判别某个样本是否来自训练数据而非 G。进一步而言,G 的目标就是尽量生成真实的图片去欺骗判别网络 D,使D 犯错;而 D 的目标就是尽量把 G 生成的图片和真实的图片分别开来。二者互相博弈,共同进化。

一经提出,就在原始 GAN 的基础上,针对多样化应用场景,众多 GAN 变体应运而生。如:DCGAN[1]InfoGANs[2]Wasserstein GAN[3]

迄今为止,这一领域已涌现出大量杰出的开源成果。本文旨在整理这些相关的开源模型及数据集,以加速开发者的研究步伐,使他们能够便捷地获取所需的算法与数据资源。

GFP-GAN

GFP-GAN 是由腾讯 PCG 开发的利用生成人脸先验 GFP 的人脸复原模型,可以解决如何从低分辨率低质量的真实图像中获得较好的先验知识,复原人脸图像的问题。

★star:35.9K

DragGAN

DragGAN 模型,是一种革命性交互式图像操作方式,允许用户将图像中的任意点"拖动"到目标位置,来精确控制照片主体的位置、姿态、表情、大小和角度等。主要包括了两个组件:

  • 基于特征的运动监督,驱动手柄点向目标位置移动

  • 新的点追踪方法,利用辨别式GAN特征来定位手柄点的位置

  • 参考论文:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold (SIGGRAPH 2023)

  • 论文地址:https://arxiv.org/abs/2305.10973

  • 开源地址:https://github.com/XingangPan/DragGAN

★star:35.7K

趋动云『社区项目』中相关项目体验教程:

StyleGAN

StyleGAN 是由英伟达开源的一款人脸生成器,借用风格迁移的思路对传统的 GAN 进行了革新,能在粗糙、中度、精细三个层面调节图像生成,所生成的人物肖像与背景均极为逼真,达到了与真实图像难辨真伪的高度。

Flickr-Faces-HQ (FFHQ) 是一个高质量的人脸图像数据集,包含 70,000 张高质量的 PNG 图像,分辨率为1024×1024,在年龄、种族、角度、光照和图像背景方面具有比 CELEBA-HQ 更多的变化,同时在配饰(如眼镜、太阳镜、帽子等)的覆盖范围上也更加丰富。

★star:14.2K

CycleGAN

CycleGAN 是一种基于深度学习的模型,用于无配对图像到图像的转换(翻译)。在此之前,作者提出的 Pix2Pix,也可以做图像转换,与 CycleGAN 的区别在于,pix2pix 模型必须要求成对数据(paired data),而 CycleGAN 利用非成对数据也能进行训练(unpaired data)。

★star:12.4K

StarGAN

在前面提到的 Pix2Pix 和 CycleGAN 模型,两者的不同点是一个解决了有Pair 对数据的图像翻译问题;一个解决了 Unpaired 数据下的图像翻译问题。共同点都是解决了一对一的问题,即一个领域到另一个领域的转换。

高丽大学& Clova Research 开源的 StarGAN 则是将多领域转换用统一框架实现的算法,解决了之前每一个领域转换,都需要重新训练一个模型的繁琐问题。

如下图所示,在同一种模型下,可以做多个图像转换任务,比如更换头发颜色,更换表情,更换年龄等。

★star:5.2K

相隔一年之久,在 StarGAN 的基础上,Clova Research 提出 StarGAN v2,不仅实现人到人的随意转换,猫、狗、虎、豹各种动物也可以无缝切换,同时解决了图像-图像转换模型中要么只满足生成图像的多样性,要么是满足在多个域上的可扩展性的问题。

另外,还开源了一个质量更高、变化范围更宽的动物面孔(AFHQ)数据集,由 15,000 张 512 × 512 分辨率的高质量图像组成。该数据集包括猫、狗和野生动物三个领域,每个领域提供 5000 张图像。

★star:3.5K

参考资料

1\].Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,https://arxiv.org/abs/1511.06434. \[2\].InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets,https://arxiv.org/abs/1606.03657. \[3\].Wasserstein GAN,https://arxiv.org/abs/1701.07875. *** ** * ** *** > 趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。 > > > 趋动云的使命是连接算力·连接人: > > > 📍通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。 > > 📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。 趋动云 连接算力・连接人

相关推荐
墨染天姬15 分钟前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志19 分钟前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_9481142431 分钟前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠33 分钟前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光1 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好1 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力1 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo1 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_1 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL1 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理