GAN(Generative Adversarial Network)生成对抗网络

先从一个场景理解 GAN:一个造假者和一个鉴定师的博弈

GAN,全称是 Generative Adversarial Network,生成对抗网络。它最核心的思想不是"我直接告诉模型怎么生成一张图片",而是设计一个对抗场景,让两个模型互相竞争、互相逼迫,最后把生成能力训练出来。

你可以把 GAN 想象成一个"造假者"和一个"鉴定师"的训练过程。

一开始,造假者水平很差,画出来的东西一眼假;鉴定师也很普通,只会分辨一些很明显的真假。然后训练开始:造假者不断尝试生成假图片,想骗过鉴定师;鉴定师不断学习真实图片和假图片之间的区别,想把造假者抓出来。随着训练进行,鉴定师越来越会看细节,造假者也被迫越来越会模仿真实数据。

最后如果训练得比较理想,就会出现一种平衡:造假者生成的图片已经足够逼真,鉴定师也很难判断它到底是真的还是假的。这个时候,我们真正想要的其实不是鉴定师,而是那个已经训练好的"造假者",也就是 生成器 Generator

GAN 的两个核心角色:生成器和判别器

GAN 里面有两个主要模块。

第一个是 生成器 Generator,简称 G。它的任务是从一个随机噪声开始,生成一个看起来像真实数据的东西。比如生成图片时,它一开始拿到的可能只是一串随机数字,这串数字本身没有明确意义,但生成器会把它一步一步变成一张图片。刚开始生成的图可能像雪花噪声,但训练久了之后,它就可能生成一张人脸、一只猫、一个医学影像切片,甚至一个特定风格的图像。

第二个是 判别器 Discriminator,简称 D。它的任务是判断输入的数据是真的还是假的。真实数据来自训练集,假数据来自生成器。判别器会输出一个概率,比如它认为这张图有 90% 的可能是真的,或者只有 10% 的可能是真的。

所以 GAN 的结构其实非常清楚:

生成器负责造,判别器负责查。生成器想骗过判别器,判别器想识破生成器。

这两个模块不是单独训练的,而是互相影响的。判别器越强,生成器就必须生成更真实的东西;生成器越强,判别器就必须学会更细节的真假差异。GAN 的"对抗"二字就在这里。

GAN核心公式

它其实就表达一句话:

判别器 DDD 想分清真假,生成器 GGG 想骗过判别器。

其中:

x:真实数据,比如真实图片。

z:随机噪声。

G(z):生成器用噪声造出来的假图片。

D(x):判别器认为真实图片是真的概率。

D(G(z)):判别器认为假图片是真的概率。

判别器的目标是:

真实图片要判成真。

假图片要判成假。

所以判别器希望最大化这个公式,也就是:

它越能分清真假,得分越高。

生成器的目标正好相反。它希望自己造出来的假图被判成真(生成模型只能影响第二个式子):

所以生成器要最小化判别器识别假图的能力,也就是:

意思就是:

判别器拼命提高鉴别能力,生成器拼命提高造假能力。

在代码里,常见写法会变成两个 loss:

判别器 loss:

意思是:真实图判真,假图判假。

生成器 loss:

意思是:让假图被判成真。

最后如果训练理想,生成器生成的分布接近真实数据分布:

这时判别器已经分不清真假。

GAN应用场景

目前 GAN 的应用主要集中在图像生成、图像增强、图像修复和数据扩充等场景中。它可以用来生成人脸、动漫头像、商品图等视觉内容,也可以用于图像超分辨率,把低清图像变得更加清晰;在图像修复中,GAN 能根据周围区域补全缺失内容,例如修复老照片、去除遮挡或补全破损部分;在图像风格转换中,它可以实现白天到夜晚、素描到真实图像、普通照片到特定风格图像的转换。除此之外,GAN 在医学影像、遥感图像和工业检测中也有较多应用,例如生成医学影像样本进行数据增强、提高卫星图像分辨率、生成缺陷样本辅助工业质检等。整体来看,GAN 最适合处理那些需要"让生成结果看起来更真实"的任务,它的价值不只是生成新图像,更在于通过对抗训练逼迫模型学习真实数据背后的纹理、结构和分布规律。

相关推荐
咖啡星人k1 小时前
AI友好的全栈架构设计:接口规范、状态管理与组件拆分的最佳实践
人工智能
财迅通Ai1 小时前
智迪科技斥资1.52亿元收购越南工厂:当“租赁出海”走向“资产出海”
人工智能·科技·智迪科技
RD_daoyi1 小时前
Google SEO第三周:网站站内基础优化——决定排名快慢的核心基建
大数据·人工智能·学习·搜索引擎·百度·googlecloud
zhangfeng11331 小时前
超算中心 高性能计算 slurm的linux版本 centos7,如何安装docker,如何安装torch2.4
linux·运维·服务器·开发语言·人工智能·机器学习·docker
xiami_world1 小时前
Multi-Agent架构选型实战:5个主流平台工具深度横评
人工智能·ui·ai·agi·用户界面
weixin_407443871 小时前
OCR材料信息提取工具(附件中含代码和数据)
人工智能·python·计算机视觉·ocr
YOLO数据集集合1 小时前
无人机低空安防巡检AI落地方案|航拍小目标人员入侵检测、多场景跨领域目标检测数据集与YOLO算法工程实战
人工智能·yolo·目标检测·无人机
拓研C1 小时前
EM-Core-Agent:AI Agent 具身认知核心系统——架构白皮书 V1.0
人工智能·架构·车载系统·机器人·github
katttt_2 小时前
从被动投流到被动获客,GEO 重构中小企业盈利模式
人工智能