碎片笔记|生成模型原理解读:AutoEncoder、GAN 与扩散模型图像生成机制

前言:本篇博客简要介绍不同生成模型架构的图像生成原理,主要包括AutoEncoder、GAN 和 Diffusion Models 三类。

目录

  • AutoEocoder(自编码器)
    • [VAE(Variational Autoencoder,变分自编码器)](#VAE(Variational Autoencoder,变分自编码器))
  • [GAN(Generative Adversarial Network,生成对抗网络)](#GAN(Generative Adversarial Network,生成对抗网络))
  • [Diffusion Model(扩散模型)](#Diffusion Model(扩散模型))
    • [Latent Diffusion Model(LDM,潜空间扩散模型)](#Latent Diffusion Model(LDM,潜空间扩散模型))

AutoEocoder(自编码器)

AutoEncoder主要用于图像重建任务,是典型的Encoder-Decoder架构。

生成原理:图像 x x x 首先经由 Encoder 编码成 l a t e n t latent latent,然后 l a t e n t latent latent送入Decoder得到重建图像。

VAE(Variational Autoencoder,变分自编码器)

VAE是AutoEncoder的变体,旨在提升AutoEncoder的图像生成能力,因此对于训练完毕的VAE,可以直接使用其Decoder生成图像。

生成原理:随机生成噪声向量 l a t e n t latent latent 送入Decoder即可生成图像。


GAN(Generative Adversarial Network,生成对抗网络)

GAN(Generative Adversarial Network,生成对抗网络)是一种生成模型,由 生成器(Generator) 和 判别器(Discriminator) 构成,生成器负责生成图像,判别器负责区分真图像与生成图像。训练过程中,判别器对生成图像与真实图像进行判别,生成器根据判别结果不断优化,从而生成逼真的图像。两者通过对抗训练提升生成效果。

生成原理:随机生成噪声向量 l a t e n t latent latent(通常服从标准正态分布)作为输入送入生成器,生成器输出图像。


Diffusion Model(扩散模型)

Diffusion Model(扩散模型)是一种基于逐步去噪生成图像的概率模型,通过学习数据分布的反向扩散过程来生成图像。

生成原理:首先从标准正态噪声图像开始,经过训练好的去噪网络(通常是 U-Net 结构)逐步迭代去噪,最终得到高质量图像。生成过程可以视作"从纯噪声到图像"的逐步逆扩散过程。

Latent Diffusion Model(LDM,潜空间扩散模型)

LDM 是 Diffusion Model 的一种变体,将扩散过程放在 潜在空间(latent space) 而非原始像素空间,从而大幅降低计算开销,同时保持生成图像质量。

训练过程:原始图像先通过 AutoEncoder 的 Encoder 映射到潜在向量空间,然后在潜在空间中进行逐步扩散/去噪训练,学习潜在向量的分布。有些训练会将重建的潜向量通过 Decoder 映射回图像空间,计算像素级重建损失,但核心训练是潜在空间去噪。

生成原理:生成图像时,先在潜在空间中选取随机噪声向量开始迭代去噪,得到潜在向量(和随机噪声的维度相同),再通过 Decoder 映射回像素空间得到最终图像。

特点:相比像素空间扩散,LDM 计算更高效,同时可以更容易地结合文本、图像等条件生成图像。

根据生成任务的类型,DM 提供两种不同的输入方式:

模式 输入 随机噪声 条件 Encoder Decoder
Text-to-Image 文本 prompt 文本
Image-to-Image 参考图像 (+可选文本) √(加在潜向量上) 图像 / 文本
相关推荐
出门吃三碗饭14 小时前
如何在LLM大语言模型上微调来优化数学推理能力?
android·人工智能·语言模型
小白狮ww14 小时前
清华联合字节推出 HuMo,实现三模态协同生成人物视频
人工智能·深度学习·机器学习·音视频·视频生成·多模态模型·人物视频
RAG专家16 小时前
【Mixture-of-RAG】将文本和表格与大型语言模型相结合
人工智能·语言模型·rag·检索增强生成
星期天要睡觉19 小时前
自然语言处理(NLP)——自然语言处理原理、发展历程、核心技术
人工智能·自然语言处理
低音钢琴19 小时前
【人工智能系列:机器学习学习和进阶01】机器学习初学者指南:理解核心算法与应用
人工智能·算法·机器学习
大千AI助手20 小时前
Hoeffding树:数据流挖掘中的高效分类算法详解
人工智能·机器学习·分类·数据挖掘·流数据··hoeffding树
m0_6501082421 小时前
【论文精读】EvalCrafter:文本到视频生成模型的全面评测框架
扩散模型·论文精读·生成式 ai·文本到视频生成(t2v)·模型评测基准·客观指标体系·人类偏好对齐
新知图书21 小时前
大模型微调定义与分类
人工智能·大模型应用开发·大模型应用
山烛21 小时前
一文读懂YOLOv4:目标检测领域的技术融合与性能突破
人工智能·yolo·目标检测·计算机视觉·yolov4
大千AI助手21 小时前
独热编码:分类数据处理的基石技术
人工智能·机器学习·分类·数据挖掘·特征工程·one-hot·独热编码