扩散模型

m0_6501082411 小时前
扩散模型·论文精读·生成式 ai·文本到视频生成(t2v)·模型评测基准·客观指标体系·人类偏好对齐
【论文精读】EvalCrafter:文本到视频生成模型的全面评测框架标题:EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
F_D_Z2 天前
人工智能·扩散模型·kl散度·双阶段训练·散度最小化偏好优化
扩散模型对齐:DMPO 让模型更懂人类偏好Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO(Divergence Minimization Preference Optimization) 的新方法,用于更好地将扩散模型与人类偏好对齐。
m0_650108242 天前
计算机视觉·扩散模型·视频生成·论文精读·隐式条件建模
【 论文精读】VIDM:基于扩散模型的视频生成新范式标题:VIDM: Video Implicit Diffusion Models作者:Kangfu Mei, Vishal M. Patel
m0_650108243 天前
人工智能·计算机视觉·扩散模型·视频编辑·视频生成·论文精读·不完美光流
【论文精读】FlowVid:驯服不完美的光流,实现一致的视频到视频合成标题:FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis 作者:Feng Liang*, Bichen Wu†, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu 单位:德克萨斯大学奥斯汀分校,Meta
AI生成未来12 天前
多模态·扩散模型·图像生成
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染相分离。
沉默媛19 天前
人工智能·计算机视觉·cvpr·扩散模型·图像编辑·ddpm
扩散模型-图像编辑【An Edit Friendly DDPM Noise Space: Inversion and Manipulations】图1. 便于编辑的扩散概率模型反转。我们提出了一种方法,用于提取一系列能够完美重建给定图像的DDPM噪声图。这些噪声图的分布与常规采样中使用的噪声图不同,并且更便于编辑。我们的方法允许对真实图像进行多样化的编辑,而无需对模型进行微调或修改其注意力图,并且还可以轻松集成到其他算法中(此处结合Prompt-to-Prompt [9]和Zero-Shot I2I [21]进行说明)。
_Meilinger_21 天前
人工智能·生成对抗网络·gan·扩散模型·图像生成·diffusion model
碎片笔记|生成模型原理解读:AutoEncoder、GAN 与扩散模型图像生成机制前言:本篇博客简要介绍不同生成模型架构的图像生成原理,主要包括AutoEncoder、GAN 和 Diffusion Models 三类。
这张生成的图像能检测吗1 个月前
人工智能·深度学习·计算机视觉·文生图·扩散模型
(论文速读)DiffBlender:可组合和通用的多模态文本到图像扩散模型论文题目:DiffBlender: Composable and versatile multimodal text-to-image diffusion models(可组合和通用的多模态文本到图像扩散模型)
scott1985122 个月前
扩散模型·生成式·世界模型
GSFix3Dpaper来源GSFix3D: Diffusion-Guided Repair of Novel Views in Gaussian Splatting
这张生成的图像能检测吗3 个月前
人工智能·深度学习·神经网络·计算机视觉·扩散模型·综述·网络构架设计
(综述)扩散模型设计基础深度解析:从三大组件到未来趋势论文题目:On the design fundamentals of diffusion models: A survey(扩散模型的设计基础综述)
归去_来兮3 个月前
扩散模型·diffusion model
扩散模型(Diffusion Model)原理概述扩散模型(Diffusion Model)是一种生成模型,受热力学中扩散过程的启发,通过模拟数据从噪声中逐步去噪的过程来生成样本。其核心思想是渐进式地添加噪声(正向过程)和逐步去噪(反向过程)。 在正向过程中,逐步向数据中添加高斯噪声,最终将数据转化为纯噪声;在反向过程中,学习如何从噪声中逐步去噪,恢复出原始数据分布。
音视频牛哥4 个月前
人工智能·计算机视觉·ai·音视频·实时音视频·扩散模型
计算机视觉的新浪潮:扩散模型(Diffusion Models)技术剖析与应用前景近年来,扩散模型(Diffusion Models, DMs)迅速崛起,成为计算机视觉领域最令人瞩目的生成模型之一。从生成高质量图像到风格迁移、图像修复,再到文本驱动图像生成(如 DALL·E 2、Stable Diffusion、Midjourney),扩散模型正以惊人的速度改变着视觉内容生成的格局。
Sherlock Ma4 个月前
人工智能·深度学习·计算机视觉·aigc·音视频·扩散模型·视频生成
Seedance:字节发布视频生成基础模型新SOTA,能力全面提升Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10 倍的推理加速。
寻丶幽风5 个月前
论文阅读·人工智能·笔记·扩散模型·流匹配
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELINGFlow Matching 论文 扩散模型:根据中心极限定理,对原始图像不断加高斯噪声,最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布,形成离散的马尔科夫链。再通过逐步去噪得到原始图像。 Flow matching 采取直接将已知分布(如白噪声)转换为真实数据分布来生成数据,并且 Flow 是基于 Normalizing Flow,故而是可微双射。生成过程中变化的概率密度构成一个集合,称为概率密度路径 p t p_t pt ,T 为路径长度。初始数据 x 0 ∼ p 0 ( x
寻丶幽风5 个月前
论文阅读·笔记·文生图·扩散模型·t2i
论文阅读笔记——PixArt-α,PixArt-δPixArt-α 论文 仅使用 28400 美元,28M 训练数据,训练时长为 SD 1.5 的 10.8%,只有 0.6B 参数量,达到接近商业应用的水准。 现有数据集存在的缺陷:图文匹配偏差、描述信息不完整、词汇多样性不足(长尾效应显著)、低质量数据。 为了实现低成本训练,华为采用了三阶段的训练策略:第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用
Panesle6 个月前
大模型·transformer·音频·扩散模型·文本生成音乐
ACE-Step:扩散自编码文生音乐基座模型快速了解ACE-Step 是一款由 ACE Studio 和 StepFun 开发的新型开源音乐生成基础模型。它通过整合基于扩散的生成方式、Sana 的深度压缩自编码器(DCAE)以及轻量级线性变换器,在音乐生成速度、音乐连贯性和可控性等方面达到前所未有的高度,成功克服了现有方法的关键局限性。
wufeil6 个月前
深度学习·扩散模型·分子生成·药物设计·aidd·药效团·静电势
基于电子等排体的3D分子生成模型 ShEPhERD - 评测ShEPhERD 是一个由 MIT 开发的一个 3D 相互作用感知的 ligand-based的分子生成模型,以 arXiv 预印本的形式发表于 2024 年,被ICLR2025 会议接收。文章链接:https://openreview.net/pdf?id=KSLkFYHlYg
Jeremy_lf6 个月前
人工智能·文生图·transformer·多模态·扩散模型
【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统论文:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
寻丶幽风7 个月前
论文阅读·笔记·扩散模型·具身智能·双壁机器人
论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATIONRDT-1B 论文 模型表达与泛化能力:由于双臂操作中动作空间维度是单臂空间的两倍,传统方法难以建模其多模态分布。 数据:双臂数据少且不同机器人的物理结构和动作空间差异(如关节数、运动范围)导致数据分布不一致,直接合并训练可能引发负迁移(negative transfer)。