[ICCV 2023]Scalable Diffusion Models with Transformers

夏莉莉iy2026-05-09 9:22

论文网址：Scalable Diffusion Models with Transformers

项目网址：Scalable Diffusion Models with Transformers

论文代码：GitHub - facebookresearch/DiT: Official PyTorch Implementation of "Scalable Diffusion Models with Transformers" · GitHub

目录

[1. 心得](#1. 心得)

[2. 论文逐段精读](#2. 论文逐段精读)

[2.1. Abstract](#2.1. Abstract)

[2.2. Introduction](#2.2. Introduction)

[2.3. Related Work](#2.3. Related Work)

[2.4. Diffusion Transformers](#2.4. Diffusion Transformers)

[2.4.1. Preliminaries](#2.4.1. Preliminaries)

[2.4.2. Diffusion Transformer Design Space](#2.4.2. Diffusion Transformer Design Space)

[2.5. Experimental Setup](#2.5. Experimental Setup)

[2.6. Experiments](#2.6. Experiments)

[2.6.1. State-of-the-Art Diffusion Models](#2.6.1. State-of-the-Art Diffusion Models)

[2.6.2. Scaling Model vs. Sampling Compute](#2.6.2. Scaling Model vs. Sampling Compute)

[2.7. Conclusion](#2.7. Conclusion)

1. 心得

（1）可以很快速读完

2. 论文逐段精读

2.1. Abstract

①作者把扩散模型的主干从U Net替换为了Transformer

②随着Transformer层变深变宽，效果会变得更好

2.2. Introduction

①替换成Transformer之后还能缩放

subsume vt.将...归入(或纳入) demystify vt.使明白易懂；深入浅出地解释

poise n.沉着自信；自若；仪态；稳重；优雅的举止 v.保持(某种姿势)；使稳定；抓紧

①说了一些其他的基础扩散方法，也说要考虑到计算复杂度

2.4. Diffusion Transformers

2.4.1. Preliminaries

①前向高斯加噪扩散：

简化版：

其中

②去噪：

③变分下界损失，用于优化方差：

噪声误差，用于预测噪声：

④贝叶斯定理，对数似然损失项：

梯度项：

⑤Classifier-free guidance：其中把基于条件预测的概率梯度替换为了噪声差值

⑥规模和模型对比：

2.4.2. Diffusion Transformer Design Space

①DiT架构图：

其中输入图片像素由256×256×3被VAE变成32×32×4的作为DiT的输入

②图像切块：

2.5. Experimental Setup

①把DiT在ImageNet上256×256和512×512的图片上训练

②学习率：1e-4，不权重衰减。使用指数移动平均（exponential moving average, EMA）

③批量大小：256

④负责特征压缩的VAE单独训练

2.6. Experiments

①不同设计的对比实验：

②不同模型大小和不同patch大小的对比：

③不同模型设置的Gflops和精度比较：

④比起上一个图，这个图记录了更多时间节点，可以看到斜率：

⑤缩放的影响：

2.6.1. State-of-the-Art Diffusion Models

①模型效果示例：

②在256×256图片上训练模型的对比表格：

③在512×512图片上训练模型的对比表格：

2.6.2. Scaling Model vs. Sampling Compute

①不同规模模型的推理和结果：

2.7. Conclusion

~

上一篇：Vue.js响应式shallowReadonly实现对象属性的一层状态保护

下一篇：【汽车芯片功能安全分析与故障注入实践 04】IEC 62380 与 SN29500：FIT 模型如何工程化落地？

热门推荐

01GitHub 镜像站点 02DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 03Codex 接入 DeepSeek API 完整配置文档 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05【AI】2026 年具身智能模型和世界模型总结 06CC-Switch & Claude 基于 Linux 服务器安装使用指南 07裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 08CC-Switch 全平台下载、安装与使用全指南（Windows/macOS/Linux）09API Key 登录 Codex 也能用插件了，还支持会话删除和导出 102026年AI编程工具终极横评：Cursor vs Claude Code vs Copilot