[ICCV 2023]Scalable Diffusion Models with Transformers

论文网址:Scalable Diffusion Models with Transformers

项目网址:Scalable Diffusion Models with Transformers

论文代码:GitHub - facebookresearch/DiT: Official PyTorch Implementation of "Scalable Diffusion Models with Transformers" · GitHub

目录

[1. 心得](#1. 心得)

[2. 论文逐段精读](#2. 论文逐段精读)

[2.1. Abstract](#2.1. Abstract)

[2.2. Introduction](#2.2. Introduction)

[2.3. Related Work](#2.3. Related Work)

[2.4. Diffusion Transformers](#2.4. Diffusion Transformers)

[2.4.1. Preliminaries](#2.4.1. Preliminaries)

[2.4.2. Diffusion Transformer Design Space](#2.4.2. Diffusion Transformer Design Space)

[2.5. Experimental Setup](#2.5. Experimental Setup)

[2.6. Experiments](#2.6. Experiments)

[2.6.1. State-of-the-Art Diffusion Models](#2.6.1. State-of-the-Art Diffusion Models)

[2.6.2. Scaling Model vs. Sampling Compute](#2.6.2. Scaling Model vs. Sampling Compute)

[2.7. Conclusion](#2.7. Conclusion)

1. 心得

(1)可以很快速读完

2. 论文逐段精读

2.1. Abstract

①作者把扩散模型的主干从U Net替换为了Transformer

②随着Transformer层变深变宽,效果会变得更好

2.2. Introduction

①替换成Transformer之后还能缩放

subsume vt.将...归入(或纳入) demystify vt.使明白易懂;深入浅出地解释

poise n.沉着自信;自若;仪态;稳重;优雅的举止 v.保持(某种姿势);使稳定;抓紧

①说了一些其他的基础扩散方法,也说要考虑到计算复杂度

2.4. Diffusion Transformers

2.4.1. Preliminaries

①前向高斯加噪扩散:

简化版:

其中

②去噪:

③变分下界损失,用于优化方差:

噪声误差,用于预测噪声:

④贝叶斯定理,对数似然损失项:

梯度项:

⑤Classifier-free guidance:其中把基于条件预测的概率梯度替换为了噪声差值

⑥规模和模型对比:

2.4.2. Diffusion Transformer Design Space

①DiT架构图:

其中输入图片像素由256×256×3被VAE变成32×32×4的作为DiT的输入

②图像切块:

2.5. Experimental Setup

①把DiT在ImageNet上256×256和512×512的图片上训练

②学习率:1e-4,不权重衰减。使用指数移动平均(exponential moving average, EMA)

③批量大小:256

④负责特征压缩的VAE单独训练

2.6. Experiments

①不同设计的对比实验:

②不同模型大小和不同patch大小的对比:

③不同模型设置的Gflops和精度比较:

④比起上一个图,这个图记录了更多时间节点,可以看到斜率:

⑤缩放的影响:

2.6.1. State-of-the-Art Diffusion Models

①模型效果示例:

②在256×256图片上训练模型的对比表格:

③在512×512图片上训练模型的对比表格:

2.6.2. Scaling Model vs. Sampling Compute

①不同规模模型的推理和结果:

2.7. Conclusion

~

相关推荐
田里的水稻2 小时前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人
Deepoch2 小时前
Deepoc VLA开发板:无人机复杂环境自主感知与决策系统
人工智能·无人机·开发板·具身模型·deepoc
2401_876964132 小时前
【湖北专升本】2026湖北专升本真题PDF+备考资料汇总
数据结构·人工智能·经验分享·深度学习·算法·计算机视觉
冬奇Lab3 小时前
Agent系列(八):上下文工程——让每个 Token 都用在刀刃上
人工智能·agent
饼干哥哥3 小时前
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
人工智能
NiceCloud喜云3 小时前
Claude Code Routines 实战:三种触发器跑通云端自动化编码
android·运维·数据库·人工智能·自动化·json·飞书
海兰3 小时前
【文字三国志:第三篇】天命重构,数据模型设计
人工智能·游戏
心疼你的一切4 小时前
高效内容生产:如何实现规模化创作
大数据·人工智能·ai·ai编程·ai写作
QYR-分析4 小时前
智能化重构仓储物流:仓储人形机器人行业全景解析
人工智能·重构·机器人
AI 小老六4 小时前
Claude Code 如何压缩上下文:Microcompact、Prompt Cache 与 cache_edits 工程拆解
数据库·人工智能·ai·语言模型·架构·系统架构