扩散transformer

科研小刘带你玩学术

学术干货｜DDT：解耦扩散Transformer实现高效高质量图像生成扩散模型（Diffusion Models）作为当前生成式AI领域最具影响力的技术范式之一，自2020年提出以来便以惊人的速度发展演进。与传统的生成对抗网络（GAN）和自回归模型（AR）相比，扩散模型在生成质量、多样性和训练稳定性方面展现出显著优势，已成为图像生成、视频合成、3D建模等任务的主流选择。然而，扩散模型也面临着严峻的计算效率挑战。以经典的DDPM（Denoising Diffusion Probabilistic Models）为例，模型需要在推理阶段执行多达数百甚至上千步的去噪迭代，每次迭

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)本文最开始属于此文《视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》

OpenAI视频生成模型Sora的全面解析：从ViViT、扩散Transformer到NaViT、VideoPoet真没想到，距离视频生成上一轮的集中爆发(详见《视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T》)才过去三个月，没想OpenAI一出手，该领域又直接变天了

我是有底线的