扩散模型

m0_650108248 天前
人工智能·扩散模型·论文精读·视频修复·时序一致性·任意时长·结构引导
【论文精读】AVID:基于扩散模型的任意长度视频修复标题:AVID: Any-Length Video Inpainting with Diffusion Model
m0_6501082410 天前
扩散模型·论文精读·定制化视频生成·主体学习与动作学习·轻量级适配器·文本引导生成·阿里千问实验室
【论文精读】DreamVideo:定制化主体与动作的视频生成技术标题:DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
m0_6501082410 天前
aigc·扩散模型·论文精读·音频到视频生成·会说话的头部·弱条件
【论文精读】EMO:弱条件下基于 Audio2Video 扩散模型的表情肖像视频生成标题:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
m0_6501082412 天前
aigc·扩散模型·论文精读·分治策略·文本到视频生成
【论文精读】MicroCinema:基于分治策略的文本到视频生成新框架标题:MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation
m0_6501082412 天前
aigc·扩散模型·论文精读·时空transformer·文本到视频生成·视频生成效率优化
【论文精读】Snap Video:面向文本到视频生成的规模化时空 Transformer标题:Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
Small___ming13 天前
论文阅读·人工智能·扩散模型·生成式人工智能
【论文笔记】扩散模型——如何通俗理解传统概率模型的核心矛盾灵活性 = 模型能拟合复杂数据的能力 可处理性 = 模型能进行高效计算的能力这两个目标往往相互冲突,就像"既要马儿跑,又要马儿不吃草"。
m0_6501082414 天前
计算机视觉·扩散模型·零样本学习·论文精读·文本条件图像到视频生成
【论文精读】TI2V-Zero:零样本图像引导的文本到视频生成技术标题:TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models
m0_6501082419 天前
计算机视觉·扩散模型·论文精读·图像到视频合成·角色动画·姿态引导器·可控生成
【论文精读】Animate Anyone:实现角色动画的一致性与可控性图像到视频合成标题:Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
m0_6501082419 天前
计算机视觉·扩散模型·论文精读·3d重建·高斯溅射
【论文精读】FDGaussian:基于几何感知扩散模型的单图快速高斯溅射 3D 重建标题:FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model
m0_6501082421 天前
扩散模型·论文精读·生成式 ai·文本到视频生成(t2v)·模型评测基准·客观指标体系·人类偏好对齐
【论文精读】EvalCrafter:文本到视频生成模型的全面评测框架标题:EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
F_D_Z22 天前
人工智能·扩散模型·kl散度·双阶段训练·散度最小化偏好优化
扩散模型对齐:DMPO 让模型更懂人类偏好Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO(Divergence Minimization Preference Optimization) 的新方法,用于更好地将扩散模型与人类偏好对齐。
m0_6501082422 天前
计算机视觉·扩散模型·视频生成·论文精读·隐式条件建模
【 论文精读】VIDM:基于扩散模型的视频生成新范式标题:VIDM: Video Implicit Diffusion Models作者:Kangfu Mei, Vishal M. Patel
m0_6501082423 天前
人工智能·计算机视觉·扩散模型·视频编辑·视频生成·论文精读·不完美光流
【论文精读】FlowVid:驯服不完美的光流,实现一致的视频到视频合成标题:FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis 作者:Feng Liang*, Bichen Wu†, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu 单位:德克萨斯大学奥斯汀分校,Meta
AI生成未来1 个月前
多模态·扩散模型·图像生成
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染相分离。
沉默媛1 个月前
人工智能·计算机视觉·cvpr·扩散模型·图像编辑·ddpm
扩散模型-图像编辑【An Edit Friendly DDPM Noise Space: Inversion and Manipulations】图1. 便于编辑的扩散概率模型反转。我们提出了一种方法,用于提取一系列能够完美重建给定图像的DDPM噪声图。这些噪声图的分布与常规采样中使用的噪声图不同,并且更便于编辑。我们的方法允许对真实图像进行多样化的编辑,而无需对模型进行微调或修改其注意力图,并且还可以轻松集成到其他算法中(此处结合Prompt-to-Prompt [9]和Zero-Shot I2I [21]进行说明)。
_Meilinger_1 个月前
人工智能·生成对抗网络·gan·扩散模型·图像生成·diffusion model
碎片笔记|生成模型原理解读:AutoEncoder、GAN 与扩散模型图像生成机制前言:本篇博客简要介绍不同生成模型架构的图像生成原理,主要包括AutoEncoder、GAN 和 Diffusion Models 三类。
这张生成的图像能检测吗2 个月前
人工智能·深度学习·计算机视觉·文生图·扩散模型
(论文速读)DiffBlender:可组合和通用的多模态文本到图像扩散模型论文题目:DiffBlender: Composable and versatile multimodal text-to-image diffusion models(可组合和通用的多模态文本到图像扩散模型)
scott1985122 个月前
扩散模型·生成式·世界模型
GSFix3Dpaper来源GSFix3D: Diffusion-Guided Repair of Novel Views in Gaussian Splatting
这张生成的图像能检测吗4 个月前
人工智能·深度学习·神经网络·计算机视觉·扩散模型·综述·网络构架设计
(综述)扩散模型设计基础深度解析:从三大组件到未来趋势论文题目:On the design fundamentals of diffusion models: A survey(扩散模型的设计基础综述)