扩散模型之(十三)条件生成 Conditioned Generation

1.概述

在使用 ImageNet 等各类图像数据集进行具有条件信息的图像训练生成模型时,通常会根据类别标签或一段描述性文本生成条件样本。本文进一步展开介绍条件生成。

2. Classifier Guided Diffusion

为了将类别信息明确地纳入扩散过程,Dhariwal 和 Nichol (2021) 在噪声图像上 训练了一个分类器 。基于梯度 ,通过改变噪声预测来引导扩散采样过程向条件信息 (目标类别标签)靠拢。Review预测模型:

可以写出联合分布的得分函数如下:

因此,一种新的 classifier-guided predictor 形式如下:

为了控制分类器引导的强度,我们可以添加权重 到梯度计算部分,由此得到:

​​​​​​​

由此得到的消融扩散模型ablated diffusion model (ADM ))和带有附加分类器指导的模型(ADM-G)能够取得比 SOTA 生成模型比如 BigGAN 更好的结果。

图1 利用分类器的引导实现DDPM和DDIM进行条件生成

此外, Dhariwal 和 Nichol (2021)对 U-Net 架构进行了一些改进,结果表明其性能优于使用扩散模型的 GAN。这些架构改进包括更大的模型深度/宽度、更多的注意力头、多分辨率注意力机制、用于上采样/下采样的 BigGAN 残差块、残差连接缩放以及自适应组归一化(AdaGN)。

3. Classifier-Free Guidance

没有独立分类器尽管如此,仍然可以通过结合条件扩散模型和非条件扩散模型的得分来运行条件扩散步骤(Ho & Salimans,2021)。令非条件去噪扩散模型通过得分估计器进行参数化以及条件模型通过参数化这两个模型可以通过单个神经网络进行学习。具体来说,就是条件扩散模型。使用配对数据进行训练其中,条件信息会周期性地随机丢弃,这样模型也知道如何无条件地生成图像,即:

隐式分类器的梯度可以用条件得分估计器和非条件得分估计器来表示。一旦代入分类器引导的修正得分,该得分就不再依赖于单独的分类器。

​​​​​​​

实验结果表明,CFG可以在 FID(区分合成图像和生成图像)和 IS(质量和多样性)之间取得良好的平衡。

引导扩散模型 GLIDE(Nichol、Dhariwal 和 Ramesh 等人,2022)探索了两种引导策略:CLIP 引导和无分类器引导,并发现后者更受欢迎。他们推测,这是因为 CLIP 引导利用对抗样本来改进 CLIP 模型,而不是优化生成更匹配的图像。

相关推荐
子午1 天前
基于YOLO的车牌识别检测~Python+YOLOV8算法+车牌定位+车牌检测+深度学习
python·算法·yolo
中电金信1 天前
中电金信智能数据挖掘助手,让数据分析像聊天一样简单
人工智能
AI浩1 天前
UAV-DETR:面向反无人机目标检测的 DETR 框架
人工智能·目标检测·无人机
byte轻骑兵1 天前
【LE Audio】CAP精讲[8]:CCID绑定术,打通音频流与控制的任督二脉
网络·人工智能·音视频·le audio·音视频控制
晚霞的不甘1 天前
CANN ATB 加速库深度解析:Transformer 模型的加速引擎
人工智能·pytorch·transformer
Gradpaper41 天前
做PPT?不存在的。AI,上!
人工智能·论文·答辩
梵得儿SHI1 天前
(第四篇)Spring AI 架构设计与优化:真实生产环境复盘,从 100ms 到 10ms 的响应提速全流程
人工智能·缓存·性能优化·milvus·向量检索·rag·spring ai
heimeiyingwang1 天前
【架构实战】分布式ID生成:雪花算法与业务ID设计
分布式·算法·架构
Swift社区1 天前
当 Agent 可以自主协作:系统如何避免彻底混乱?
人工智能·agent·多智能体
海域云-罗鹏1 天前
深圳租赁 GPU 算力服务器该如何选择
大数据·服务器·人工智能