dit

摇落露为霜

论文笔记DiT：Scalable Diffusion Models with Transformers（含transformer的可扩展扩散模型）Abstract：论文的核心思想非常直接：用一个标准的 Transformer 架构替换掉扩散模型中常用的 U-Net 主干网络，并证明这种新架构（称为 DiT, Diffusion Transformer）具有出色的可扩展性（Scalability）。

[ICCV 2023]Scalable Diffusion Models with Transformers论文网址：Scalable Diffusion Models with Transformers项目网址：Scalable Diffusion Models with Transformers

扩散模型详解：从DDPM到Stable Diffusion再到DiT的技术演进扩散模型（Diffusion Models）作为当前最热门的生成模型之一，已彻底改变图像生成领域，本文从DDPM开始，逐步深入到Stable Diffusion和DiT架构。

关于DiT模型的一些思考之前看过VAE、DDPM和DiT的论文，但是那时候的理解比较浅，另外论文中涉及大量的公式推导，时间长了就容易细节和整体都把握不住，只记住了有这样一个模型，但是内部的机制忘得差不多了。

Diffusion Transformer（DiT）✅ Diffusion Model（基础扩散模型）(像素空间) 　　↓效率优化 ✅ LDM（Latent Diffusion Model，潜在扩散模型 + U-Net）　　↓ 架构革新 ✅ DiT（Diffusion Transformer）(潜在空间 + Transformer)

[EAI-027] RDT-1B，目前最大的用于机器人双臂操作的机器人基础模型论文标题：RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者：Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接：https://arxiv.org/abs/2410.07864v1 项目主页：https://rdt-robotics.github.io/rdt-

多模态论文笔记——U-ViT大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节，虽然没有后续的DiT在AIGC领域火爆，但为后来的研究奠定了基础，但其开创性的探索值得学习。

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)本文最开始属于此文《视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》

扩散模型学习先验概率和后验概率是贝叶斯统计学中的两个重要概念，用于描述事件发生的概率在更新观测数据后的变化情况。先验概率（Prior Probability）：

旋转的油纸伞

视频生成【文章汇总】SVD, Sora, Latte, VideoCrafter12, DiT...Authors: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan

Stable Diffusion 3 文本生成图像在线体验原理分析本文分享使用Stable Diffusion 3实现文本生成图像，可以通过在线网页中免费使用的，也有API等方式访问。

【扩散模型系列2】DiT 《Scalable Diffusion Models with Transformers》论文阅读《Scalable Diffusion Models with Transformers》《基于transformer的可扩展扩散模型》

OpenAI视频生成模型Sora的全面解析：从ViViT、扩散Transformer到NaViT、VideoPoet真没想到，距离视频生成上一轮的集中爆发(详见《视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T》)才过去三个月，没想OpenAI一出手，该领域又直接变天了

我是有底线的