DCGAN 使用指南:将卷积神经网络和对抗网络结合,适用于生成小尺寸的图像

DCGAN 使用指南:将卷积神经网络和对抗网络结合


论文地址:https://arxiv.org/abs/1511.06434

项目代码:https://github.com/tensorlayer/DCGAN.git

DCGAN 适用于生成小尺寸的图像,并且具有简单易用的优势

StyleGAN 适用于生成高分辨率、高质量的图像,并且具有对风格的精细控制能力。

具体选择哪个方法取决于应用需求和数据的特点。

网络结构

如上图,生成器的输入是一个 100 维的噪声向量。

再将100维向量变成 4*4*1024 的张量,将原始的一维数据扩展到更高维度,以便能够利用卷积、池化、全连接等操作进行计算和学习。

可理解为将原始数据映射到一个 4*4 的二维空间,并在每个位置上用 1024 个通道表示特征。

4*4*1024 的张量增大为 8*8*512 张量,是反卷积操作。

  • 卷积操作用于从输入数据中提取特征,参数共享,输出尺寸减小。卷积操作通常导致尺寸的减小。

  • 反卷积操作用于将低维特征图恢复到原始输入尺寸,参数共享(在逆卷积过程中对输入的重复采样),反卷积操作通常导致尺寸的增大。

经过 4 个反卷积层,每次分辨率都提升 2 倍,最终得到 64*64*3

判别器:把生成的图像送入,输出一个概率。

把图像不断降低 2 倍,最后变成 4*4*512,是生成器的反向。

细节设计

  1. 去除全连接层,使用步长卷积代替池化

    去除全连接层减少了参数量并保留了空间信息,而使用步长卷积避免了信息丢失并提取更好的特征,提升了 DCGAN 的性能和生成图像质量。

  2. 生成器输出层使用tanh,其他层使用ReLU

    使用tanh激活函数作为生成器输出层的选择是为了限制生成图像的范围,使其与真实图像的像素范围更接近。

    但在其他层中使用ReLU等非饱和激活函数可以避免梯度消失问题,并提供更大的表达能力,以更好地学习数据分布。

  3. 判别器输出层使用sigmoid激活函数的好处,其他层使用leaky ReLU激活函数

    使用sigmoid激活函数的原因是将判别器的输出转换为概率值[0,1],方便进行真假分类。

    其他层使用Leaky ReLU激活函数是为了克服ReLU的一些限制,提供更好的梯度传播和表达能力。

  4. 看上图,卷积层都使用 Batch Normalization,生成器输出层、判别器输入层为没有使用

    生成器输出层和判别器输入层通常不使用批量归一化,以保持生成样本的多样性、真实性和判别器的性能。

    其他层使用批量归一化是为了加速网络的收敛速度、防止梯度消失或爆炸、提高泛化能力,并具有一定的正则化效果。

相关推荐
jndingxin1 分钟前
OpenCV 图形API(63)图像结构分析和形状描述符------计算图像中非零像素的边界框函数boundingRect()
人工智能·opencv·计算机视觉
旧故新长7 分钟前
支持Function Call的本地ollama模型对比评测-》开发代理agent
人工智能·深度学习·机器学习
微学AI19 分钟前
融合注意力机制和BiGRU的电力领域发电量预测项目研究,并给出相关代码
人工智能·深度学习·自然语言处理·注意力机制·bigru
知来者逆30 分钟前
计算机视觉——速度与精度的完美结合的实时目标检测算法RF-DETR详解
图像处理·人工智能·深度学习·算法·目标检测·计算机视觉·rf-detr
一勺汤33 分钟前
YOLOv11改进-双Backbone架构:利用双backbone提高yolo11目标检测的精度
人工智能·yolo·双backbone·double backbone·yolo11 backbone·yolo 双backbone
武汉唯众智创36 分钟前
高职人工智能技术应用专业(计算机视觉方向)实训室解决方案
人工智能·计算机视觉·人工智能实训室·计算机视觉实训室·人工智能计算机视觉实训室
Johny_Zhao1 小时前
MySQL 高可用集群搭建部署
linux·人工智能·mysql·信息安全·云计算·shell·yum源·系统运维·itsm
一只可爱的小猴子1 小时前
2022李宏毅老师机器学习课程笔记
人工智能·笔记·机器学习
地瓜机器人1 小时前
乐聚机器人与地瓜机器人达成战略合作,联合发布Aelos Embodied具身智能
人工智能·机器人
带娃的IT创业者1 小时前
《AI大模型趣味实战》基于RAG向量数据库的知识库AI问答助手设计与实现
数据库·人工智能