扩散模型

君为先-bey13 天前
深度学习·扩散模型·视频生成·潜在扩散模型
LightningDiT----重建与生成:在潜在扩散模型中驯服优化困境论文标题Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
君为先-bey14 天前
transformer·扩散模型·导航·具身智能·世界模型·条件扩散
NWM----导航世界模型论文标题Navigation World Models作者Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun
科研小刘带你玩学术16 天前
扩散模型·图像生成·扩散transformer·解耦架构·条件编码器·速度解码器
学术干货|DDT:解耦扩散Transformer实现高效高质量图像生成扩散模型(Diffusion Models)作为当前生成式AI领域最具影响力的技术范式之一,自2020年提出以来便以惊人的速度发展演进。与传统的生成对抗网络(GAN)和自回归模型(AR)相比,扩散模型在生成质量、多样性和训练稳定性方面展现出显著优势,已成为图像生成、视频合成、3D建模等任务的主流选择。 然而,扩散模型也面临着严峻的计算效率挑战。以经典的DDPM(Denoising Diffusion Probabilistic Models)为例,模型需要在推理阶段执行多达数百甚至上千步的去噪迭代,每次迭
机器学习之心17 天前
回归·lstm·transformer·扩散模型
扩散模型数据增强 + Transformer-LSTM 回归预测:小样本场景下的工业级解决方案摘要:在小样本回归任务中,数据稀缺往往是制约模型性能的核心瓶颈。本文将扩散模型(Diffusion Model)作为数据生成引擎与 Transformer-LSTM 深度回归网络深度融合,构建了一套端到端的小样本增强预测框架。实验结果表明,经扩散模型数据增强后,Transformer-LSTM 回归模型在测试集上取得了 MAE = 1.0122、RMSE = 1.2945、R² = 0.9007 的优异性能,充分验证了该技术路线在工业小样本场景中的实用价值。
君为先-bey19 天前
计算机视觉·多模态·扩散模型·视频生成
UniVidX——基于扩散先验的统一多模态视频生成框架UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
君为先-bey20 天前
强化学习·扩散模型·opd
DiffusionOPD——扩散模型中在线策略蒸馏的统一视角DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
君为先-bey22 天前
人工智能·深度学习·计算机视觉·扩散模型·图像生成
JointDiT:使用扩散变换器增强RGB-深度联合建模JointDiT: Enhancing RGB-Depth Joint Modelingwith Diffusion Transformers
君为先-bey22 天前
人工智能·音视频·扩散模型
VideoReward: 人类反馈优化视频生成文献深度阅读分析VideoReward: 人类反馈优化视频生成 文献深度阅读分析近年来,视频生成技术经历了革命性的发展,其中流匹配(Flow Matching)技术的崛起标志着这一领域进入了新的阶段。与传统的扩散模型通过逐步去噪生成数据不同,流匹配通过学习时间相关的速度场,建立从噪声分布到目标数据分布的直接映射。这种方法不仅简化了训练过程,还在生成质量和效率方面取得了显著进步。
君为先-bey23 天前
3d·音视频·扩散模型
CineMaster: 3D感知电影级视频生成框架文献深度阅读分析CineMaster: 3D感知电影级视频生成框架 文献深度阅读分析近年来,文本到视频(Text-to-Video, T2V)生成技术经历了前所未有的快速发展。从早期的基于循环神经网络(RNN)和生成对抗网络(GAN)的方法,到扩散模型(Diffusion Models)和流匹配(Flow Matching)技术的崛起,视频生成质量得到了质的飞跃。特别是2024年以来,以Sora、可灵(Kling)、Pika等为代表的商业系统展示了令人惊叹的生成能力,能够根据文本描述生成长达数分钟、具有连贯叙事的高质量视
未知方程 无解23 天前
ai绘画·扩散模型·rtx4090·rxt4090显卡
我用RTX4090显卡训练了一个AI绘画模型AI绘画的实现依赖于生成式模型对图像分布的建模能力。其中, 扩散模型 (Diffusion Models)通过逐步去噪生成高质量图像,其UNet结构需大量卷积运算; 变分自编码器 (VAE)负责潜在空间压缩与重建; 条件生成对抗网络 (cGAN)则通过判别器提升细节真实性。这些模型共同特点是参数量大、计算密集。
摘星编程23 天前
ai绘画·扩散模型·图像生成·多图融合·seedream4.0
豆包Seedream 4.0多图融合实力派:田园犬+三花猫多场景创作,AI绘画新时代来了!🌟 Hello,我是摘星! 🌈 在彩虹般绚烂的技术栈中,我是那个永不停歇的色彩收集者。 🦋 每一个优化都是我培育的花朵,每一个特性都是我放飞的蝴蝶。 🔬 每一次代码审查都是我的显微镜观察,每一次重构都是我的化学实验。 🎵 在编程的交响乐中,我既是指挥家也是演奏者。让我们一起,在技术的音乐厅里,奏响属于程序员的华美乐章。
毕竟是shy哥1 个月前
目标检测·缺陷检测·扩散模型·工业缺陷检测·无损检测·超声检测·无监督缺陷检测
TSDD-UB:UB:一种基于纹理简化的去噪扩散模型, 用于超声 B 扫信号下的无监督缺陷检测去噪扩散模型;无损检测;纹理简化网络;超声B超信号;无监督缺陷检测。超声 B 扫信号在管道缺陷检测中应用广泛。 在超声波检测中,B 扫描信号是由一系列沿特定方向排列的A 扫描信号组成的二维表示,它能全面呈现管道横截面,准确反映缺陷的位置和形状。 传统的B 扫描信号缺陷检测依赖人工目视检查,存在效率低且高度依赖专家经验的问题[7]。 早期,提出基于 FasterRCNN、YOLO的方法,用于相控阵超声检测(UT)中的缺陷定位与识别,后面引入了数据驱动的核学习方法,效果良好。 然而,由于超声 B扫查数据采集过
君为先-bey1 个月前
深度学习·3d·扩散模型·三维点云
GaussianAnything—— 交互式点云潜在扩散的3D生成Interactive Point Cloud Latent Diffusion for 3D Generation
君为先-bey1 个月前
深度学习·计算机视觉·3d·扩散模型·三维点云
DiffusionGS: 将3D高斯溅射嵌入扩散模型的单阶段图像到三维生成Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
君为先-bey1 个月前
深度学习·音视频·transformer·扩散模型
CogVideoX——Transformer从文本到视频的扩散模型论文标题:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
君为先-bey1 个月前
python·算法·机器学习·扩散模型
LeMiCa——基于扩散模型的高效视频生成的词典序最小化路径缓存论文标题:LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
君为先-bey1 个月前
算法·机器学习·音视频·扩散模型
Latte——视频生成的潜在扩散变换器论文标题:Latte: Latent Diffusion Transformer for Video Generation
君为先-bey1 个月前
人工智能·深度学习·计算机视觉·扩散模型
LeMiCa——基于扩散的高效视频生成的词典序最小最大路径缓存论文标题:LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
机器学习之心1 个月前
人工智能·transformer·扩散模型
扩散模型 + Transformer 回归预测:用生成式AI增强小样本回归本文介绍一种将 扩散模型(Diffusion Model) 用于数据增强,再结合 Transformer 进行回归预测的完整技术方案。代码基于 MATLAB 实现,展示了从数据生成到模型训练、评估的全流程。
摇落露为霜1 个月前
人工智能·深度学习·transformer·扩散模型·dit
论文笔记DiT:Scalable Diffusion Models with Transformers(含transformer的可扩展扩散模型 )Abstract:论文的核心思想非常直接:用一个标准的 Transformer 架构替换掉扩散模型中常用的 U-Net 主干网络,并证明这种新架构(称为 DiT, Diffusion Transformer)具有出色的可扩展性(Scalability)。