[ICCV 2023]Scalable Diffusion Models with Transformers

论文网址:Scalable Diffusion Models with Transformers

项目网址:Scalable Diffusion Models with Transformers

论文代码:GitHub - facebookresearch/DiT: Official PyTorch Implementation of "Scalable Diffusion Models with Transformers" · GitHub

目录

[1. 心得](#1. 心得)

[2. 论文逐段精读](#2. 论文逐段精读)

[2.1. Abstract](#2.1. Abstract)

[2.2. Introduction](#2.2. Introduction)

[2.3. Related Work](#2.3. Related Work)

[2.4. Diffusion Transformers](#2.4. Diffusion Transformers)

[2.4.1. Preliminaries](#2.4.1. Preliminaries)

[2.4.2. Diffusion Transformer Design Space](#2.4.2. Diffusion Transformer Design Space)

[2.5. Experimental Setup](#2.5. Experimental Setup)

[2.6. Experiments](#2.6. Experiments)

[2.6.1. State-of-the-Art Diffusion Models](#2.6.1. State-of-the-Art Diffusion Models)

[2.6.2. Scaling Model vs. Sampling Compute](#2.6.2. Scaling Model vs. Sampling Compute)

[2.7. Conclusion](#2.7. Conclusion)

1. 心得

(1)可以很快速读完

2. 论文逐段精读

2.1. Abstract

①作者把扩散模型的主干从U Net替换为了Transformer

②随着Transformer层变深变宽,效果会变得更好

2.2. Introduction

①替换成Transformer之后还能缩放

subsume vt.将...归入(或纳入) demystify vt.使明白易懂;深入浅出地解释

poise n.沉着自信;自若;仪态;稳重;优雅的举止 v.保持(某种姿势);使稳定;抓紧

①说了一些其他的基础扩散方法,也说要考虑到计算复杂度

2.4. Diffusion Transformers

2.4.1. Preliminaries

①前向高斯加噪扩散:

简化版:

其中

②去噪:

③变分下界损失,用于优化方差:

噪声误差,用于预测噪声:

④贝叶斯定理,对数似然损失项:

梯度项:

⑤Classifier-free guidance:其中把基于条件预测的概率梯度替换为了噪声差值

⑥规模和模型对比:

2.4.2. Diffusion Transformer Design Space

①DiT架构图:

其中输入图片像素由256×256×3被VAE变成32×32×4的作为DiT的输入

②图像切块:

2.5. Experimental Setup

①把DiT在ImageNet上256×256和512×512的图片上训练

②学习率:1e-4,不权重衰减。使用指数移动平均(exponential moving average, EMA)

③批量大小:256

④负责特征压缩的VAE单独训练

2.6. Experiments

①不同设计的对比实验:

②不同模型大小和不同patch大小的对比:

③不同模型设置的Gflops和精度比较:

④比起上一个图,这个图记录了更多时间节点,可以看到斜率:

⑤缩放的影响:

2.6.1. State-of-the-Art Diffusion Models

①模型效果示例:

②在256×256图片上训练模型的对比表格:

③在512×512图片上训练模型的对比表格:

2.6.2. Scaling Model vs. Sampling Compute

①不同规模模型的推理和结果:

2.7. Conclusion

~

相关推荐
深蓝易网1 小时前
工厂目视化实操手册,告别形式主义
运维·网络·数据库·人工智能·汽车
程序大视界1 小时前
Agent Skills:让AI助手真正“有技能“的开源标准,正在悄悄改变整个行业
人工智能·开源
老鱼说AI1 小时前
大模型面试:从字节到集群的大模型微调底层推演指南
人工智能·深度学习·神经网络·机器学习·自然语言处理
ishangy1 小时前
智慧港口周界安防模块AI视觉解决方案
人工智能·智慧港口·ai监控·ai视频监控
FONE_Platform1 小时前
FONE大健康行业全面预算解决方案:重塑全链路敏捷预算体系
大数据·人工智能·区块链·全面预算
tianyuanwo1 小时前
AI Harness Engineering 应用最佳实践:从单点故障到系统护栏
人工智能·git·harnnees
纤纡.1 小时前
基于 Qwen2.5-1.5B-Instruct 大模型实现文本分类、多轮对话与信息抽取实战
人工智能·语言模型·分类·数据挖掘
科技小花1 小时前
AI原生 vs 云原生:数据治理平台选型如何匹配你的数据中台架构?
大数据·数据库·人工智能·数据治理·数据中台