扩散模型

君为先-bey8 小时前
强化学习·扩散模型·opd
DiffusionOPD——扩散模型中在线策略蒸馏的统一视角DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
君为先-bey2 天前
人工智能·深度学习·计算机视觉·扩散模型·图像生成
JointDiT:使用扩散变换器增强RGB-深度联合建模JointDiT: Enhancing RGB-Depth Joint Modelingwith Diffusion Transformers
君为先-bey2 天前
人工智能·音视频·扩散模型
VideoReward: 人类反馈优化视频生成文献深度阅读分析VideoReward: 人类反馈优化视频生成 文献深度阅读分析近年来,视频生成技术经历了革命性的发展,其中流匹配(Flow Matching)技术的崛起标志着这一领域进入了新的阶段。与传统的扩散模型通过逐步去噪生成数据不同,流匹配通过学习时间相关的速度场,建立从噪声分布到目标数据分布的直接映射。这种方法不仅简化了训练过程,还在生成质量和效率方面取得了显著进步。
君为先-bey2 天前
3d·音视频·扩散模型
CineMaster: 3D感知电影级视频生成框架文献深度阅读分析CineMaster: 3D感知电影级视频生成框架 文献深度阅读分析近年来,文本到视频(Text-to-Video, T2V)生成技术经历了前所未有的快速发展。从早期的基于循环神经网络(RNN)和生成对抗网络(GAN)的方法,到扩散模型(Diffusion Models)和流匹配(Flow Matching)技术的崛起,视频生成质量得到了质的飞跃。特别是2024年以来,以Sora、可灵(Kling)、Pika等为代表的商业系统展示了令人惊叹的生成能力,能够根据文本描述生成长达数分钟、具有连贯叙事的高质量视
未知方程 无解3 天前
ai绘画·扩散模型·rtx4090·rxt4090显卡
我用RTX4090显卡训练了一个AI绘画模型AI绘画的实现依赖于生成式模型对图像分布的建模能力。其中, 扩散模型 (Diffusion Models)通过逐步去噪生成高质量图像,其UNet结构需大量卷积运算; 变分自编码器 (VAE)负责潜在空间压缩与重建; 条件生成对抗网络 (cGAN)则通过判别器提升细节真实性。这些模型共同特点是参数量大、计算密集。
摘星编程3 天前
ai绘画·扩散模型·图像生成·多图融合·seedream4.0
豆包Seedream 4.0多图融合实力派:田园犬+三花猫多场景创作,AI绘画新时代来了!🌟 Hello,我是摘星! 🌈 在彩虹般绚烂的技术栈中,我是那个永不停歇的色彩收集者。 🦋 每一个优化都是我培育的花朵,每一个特性都是我放飞的蝴蝶。 🔬 每一次代码审查都是我的显微镜观察,每一次重构都是我的化学实验。 🎵 在编程的交响乐中,我既是指挥家也是演奏者。让我们一起,在技术的音乐厅里,奏响属于程序员的华美乐章。
毕竟是shy哥10 天前
目标检测·缺陷检测·扩散模型·工业缺陷检测·无损检测·超声检测·无监督缺陷检测
TSDD-UB:UB:一种基于纹理简化的去噪扩散模型, 用于超声 B 扫信号下的无监督缺陷检测去噪扩散模型;无损检测;纹理简化网络;超声B超信号;无监督缺陷检测。超声 B 扫信号在管道缺陷检测中应用广泛。 在超声波检测中,B 扫描信号是由一系列沿特定方向排列的A 扫描信号组成的二维表示,它能全面呈现管道横截面,准确反映缺陷的位置和形状。 传统的B 扫描信号缺陷检测依赖人工目视检查,存在效率低且高度依赖专家经验的问题[7]。 早期,提出基于 FasterRCNN、YOLO的方法,用于相控阵超声检测(UT)中的缺陷定位与识别,后面引入了数据驱动的核学习方法,效果良好。 然而,由于超声 B扫查数据采集过
君为先-bey11 天前
深度学习·3d·扩散模型·三维点云
GaussianAnything—— 交互式点云潜在扩散的3D生成Interactive Point Cloud Latent Diffusion for 3D Generation
君为先-bey11 天前
深度学习·计算机视觉·3d·扩散模型·三维点云
DiffusionGS: 将3D高斯溅射嵌入扩散模型的单阶段图像到三维生成Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
君为先-bey12 天前
深度学习·音视频·transformer·扩散模型
CogVideoX——Transformer从文本到视频的扩散模型论文标题:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
君为先-bey12 天前
python·算法·机器学习·扩散模型
LeMiCa——基于扩散模型的高效视频生成的词典序最小化路径缓存论文标题:LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
君为先-bey12 天前
算法·机器学习·音视频·扩散模型
Latte——视频生成的潜在扩散变换器论文标题:Latte: Latent Diffusion Transformer for Video Generation
君为先-bey12 天前
人工智能·深度学习·计算机视觉·扩散模型
LeMiCa——基于扩散的高效视频生成的词典序最小最大路径缓存论文标题:LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
机器学习之心19 天前
人工智能·transformer·扩散模型
扩散模型 + Transformer 回归预测:用生成式AI增强小样本回归本文介绍一种将 扩散模型(Diffusion Model) 用于数据增强,再结合 Transformer 进行回归预测的完整技术方案。代码基于 MATLAB 实现,展示了从数据生成到模型训练、评估的全流程。
摇落露为霜24 天前
人工智能·深度学习·transformer·扩散模型·dit
论文笔记DiT:Scalable Diffusion Models with Transformers(含transformer的可扩展扩散模型 )Abstract:论文的核心思想非常直接:用一个标准的 Transformer 架构替换掉扩散模型中常用的 U-Net 主干网络,并证明这种新架构(称为 DiT, Diffusion Transformer)具有出色的可扩展性(Scalability)。
夏莉莉iy1 个月前
人工智能·深度学习·transformer·图像·扩散模型·视觉·dit
[ICCV 2023]Scalable Diffusion Models with Transformers论文网址:Scalable Diffusion Models with Transformers项目网址:Scalable Diffusion Models with Transformers
-cywen-1 个月前
扩散模型
ELBO和VLBELBO(Evidence Lower BOund)和 VLB(Variational Lower Bound)是同一个概念的两种叫法
风巽·剑染春水1 个月前
人工智能·生成式ai·扩散模型·综述·智能体·世界模型
【World Models综述】理解世界还是预测未来?(ACM CS-2025)探索世界模型从阅读一篇综述开始!论文:Understanding World or Predicting Future? A Comprehensive Survey of World Models 论文与代码汇总:https://github.com/tsinghua-fib-lab/World-Model
杀生丸学AI1 个月前
数码相机·aigc·扩散模型·图像编辑·视觉大模型·点云分割
【动态重建】SparseCam4D:基于稀疏相机实现时空一致的4D重建技术SparseCam4D: Spatio-Temporally Consistent 4D Reconstruction from Sparse Cameras 项目主页: 浙大CAD;InSpatio Research
杀生丸学AI1 个月前
3d·aigc·扩散模型·视觉大模型·点云分割·高斯泼溅·空间智能
【三维重建】Neural Gabor Splatting:基于神经Gabor的增强型3DGS(高频表面重建)Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction 来源: 东京大学