[ICCV 2023]Scalable Diffusion Models with Transformers

论文网址:Scalable Diffusion Models with Transformers

项目网址:Scalable Diffusion Models with Transformers

论文代码:GitHub - facebookresearch/DiT: Official PyTorch Implementation of "Scalable Diffusion Models with Transformers" · GitHub

目录

[1. 心得](#1. 心得)

[2. 论文逐段精读](#2. 论文逐段精读)

[2.1. Abstract](#2.1. Abstract)

[2.2. Introduction](#2.2. Introduction)

[2.3. Related Work](#2.3. Related Work)

[2.4. Diffusion Transformers](#2.4. Diffusion Transformers)

[2.4.1. Preliminaries](#2.4.1. Preliminaries)

[2.4.2. Diffusion Transformer Design Space](#2.4.2. Diffusion Transformer Design Space)

[2.5. Experimental Setup](#2.5. Experimental Setup)

[2.6. Experiments](#2.6. Experiments)

[2.6.1. State-of-the-Art Diffusion Models](#2.6.1. State-of-the-Art Diffusion Models)

[2.6.2. Scaling Model vs. Sampling Compute](#2.6.2. Scaling Model vs. Sampling Compute)

[2.7. Conclusion](#2.7. Conclusion)

1. 心得

(1)可以很快速读完

2. 论文逐段精读

2.1. Abstract

①作者把扩散模型的主干从U Net替换为了Transformer

②随着Transformer层变深变宽,效果会变得更好

2.2. Introduction

①替换成Transformer之后还能缩放

subsume vt.将...归入(或纳入) demystify vt.使明白易懂;深入浅出地解释

poise n.沉着自信;自若;仪态;稳重;优雅的举止 v.保持(某种姿势);使稳定;抓紧

①说了一些其他的基础扩散方法,也说要考虑到计算复杂度

2.4. Diffusion Transformers

2.4.1. Preliminaries

①前向高斯加噪扩散:

简化版:

其中

②去噪:

③变分下界损失,用于优化方差:

噪声误差,用于预测噪声:

④贝叶斯定理,对数似然损失项:

梯度项:

⑤Classifier-free guidance:其中把基于条件预测的概率梯度替换为了噪声差值

⑥规模和模型对比:

2.4.2. Diffusion Transformer Design Space

①DiT架构图:

其中输入图片像素由256×256×3被VAE变成32×32×4的作为DiT的输入

②图像切块:

2.5. Experimental Setup

①把DiT在ImageNet上256×256和512×512的图片上训练

②学习率:1e-4,不权重衰减。使用指数移动平均(exponential moving average, EMA)

③批量大小:256

④负责特征压缩的VAE单独训练

2.6. Experiments

①不同设计的对比实验:

②不同模型大小和不同patch大小的对比:

③不同模型设置的Gflops和精度比较:

④比起上一个图,这个图记录了更多时间节点,可以看到斜率:

⑤缩放的影响:

2.6.1. State-of-the-Art Diffusion Models

①模型效果示例:

②在256×256图片上训练模型的对比表格:

③在512×512图片上训练模型的对比表格:

2.6.2. Scaling Model vs. Sampling Compute

①不同规模模型的推理和结果:

2.7. Conclusion

~

相关推荐
jooloo3 小时前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户5191495848453 小时前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
用户5191495848454 小时前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户018349301694 小时前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
这token有力气8 小时前
Function Calling 格式漂移
人工智能
onething3658 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 5 —— SSE 流式输出 + 打字机效果
人工智能·后端·全栈
onething3658 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 6 —— 业务完善 + 会话消息预览
人工智能·后端·全栈
IT_陈寒9 小时前
SpringBoot自动配置的坑,我爬了三天才出来
前端·人工智能·后端
甲维斯10 小时前
笑抽了!DeepSeek识图,豆包完胜了!
人工智能·deepseek
Lei活在当下18 小时前
【AI手记系列-2026/6/18】iSparto & Harness,Caveman 以及AI时代的生存指南
人工智能·llm·openai