扩散模型

杀生丸学AI4 天前
aigc·三维重建·扩散模型·图像生成·视觉大模型·lora微调·空间智能
【三维生成】ShapeR:单目视频的条件三维形状生成标题:《ShapeR: Robust Conditional 3D Shape Generation from Casual Captures》 项目:facebookresearch.github.io/ShapeR 来源:Meta Reality Labs Research;Simon Fraser University
dxz_tust7 天前
开发语言·python·深度学习·扩散模型·流匹配·flow match
flow match简单直观理解最后结果图:其他结果图(从高斯建立多个高斯):
AMiner:AI科研助手16 天前
扩散模型·多模态大模型·浙江大学·港中文·音频视频生成模型
NeurIPS 2025 Spotlight |新国立联合港中文发布JavisGPT:终结默片时代!在通往通用人工智能(AGI)的征途中, 如何让机器像人类一样同时看懂画面、听懂声音,并进行连贯的视听创作,始终是多模态领域面临的巨大挑战。
m0_6501082418 天前
论文阅读·自动驾驶·扩散模型·联合预测与规划建模·分类器引导机制
Diffusion-Planner:基于扩散模型的自动驾驶灵活引导闭环规划在复杂开放环境中实现类人驾驶行为是自动驾驶领域的核心挑战。现有基于学习的规划方法(如模仿学习)在平衡多目标、保证安全性方面存在不足,且过度依赖规则化后处理。本文提出一种基于 Transformer 的 Diffusion Planner,首次将扩散模型的强大能力应用于自动驾驶闭环规划。该模型通过联合建模预测与规划任务,利用轨迹得分函数梯度学习和灵活的分类器引导机制,在无需规则化优化的前提下,有效捕捉多模态驾驶行为,同时保证轨迹安全性与适应性。在大规模真实世界数据集 nuPlan 和新增的 200 小时配送
李加号pluuuus18 天前
扩散模型
【论文阅读】Image Referenced Sketch Colorization Based on Animation Creation Workflow动机:解决空间纠缠的问题。参考图上色通常是:输入线稿/草图(sketch)+ 一张参考彩色图(reference),希望输出的颜色/材质“像参考图”,但结构/布局“像线稿”。困难在于:reference 的图像特征(尤其是 ViT/CLIP 的 token)天然带有布局、大小、对象共现等语义,当 reference 是“只有角色的立绘/大头照”时,这些语义很容易“越权”,导致模型在背景里也“长出角色碎片/衣服/头发纹理”,或者把角色配色污染到背景——这就是空间纠缠。
李加号pluuuus19 天前
扩散模型
MangaNinja: Line Art Colorization with Precise Reference Following目标:输入目标线稿、参考彩色图(同一角色、但姿态/尺度/视角可能差很多)、(可选)用户给的匹配点,输出:彩色结果,要求颜色与身份细节跟参考图一致,并且结构跟线稿一致。
R.X. NLOS20 天前
大模型·大厂面试·扩散模型·ddpm·数学原理
知识点1:DDPM数学原理及理解注1:本文系"视觉方向大厂面试·硬核通关"专栏文章。本专栏致力于对多模态大模型/CV领域的高频高难面试题进行深度拆解。本期攻克的难题是:DDPM(去噪扩散概率模型)的数学原理与推导。
scott19851224 天前
人工智能·计算机视觉·扩散模型·生成式
DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models该论文介绍了DIFIX3D+,一种利用单步扩散模型来提升三维重建和新视角合成质量的全新管道。尽管Nerf(神经辐射场)和3D Gaussian Splatting(3DGS)等方法已经大大改善了三维重建,但在极端新视角的光线渲染上仍然存在挑战。DIFIX3D+通过整合2D生成模型的先验知识,旨在改善这种情况。 核心方法论 DIFIX 与 DIFIX3D+ 的工作原理
AI生成未来1 个月前
人工智能·aigc·扩散模型·视频生成
复刻“黑客帝国”子弹时间!SpaceTimePilot:视频变可操控4D游戏,倒放/变速/运镜随你掌控论文链接:https://arxiv.org/pdf/2512.25075 项目链接:https://zheninghuang.github.io/Space-Time-Pilot/
盼小辉丶1 个月前
pytorch·深度学习·生成模型·扩散模型
PyTorch生成式人工智能(30)——扩散模型(Diffusion Model)文本生成图像 (text-to-image) Transformer 模型,如 OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion,能够根据文本描述生成高质量的图像。这些文本生成图像的模型包含三个核心组成部分:一个文本编码器,将文本压缩成潜表示;一个将文本信息融入图像生成过程的方法;以及一个扩散机制,逐步优化图像以产生逼真的输出。理解扩散机制对于理解文本生成图像 Transformer 尤其重要,因为扩散模型构成了所有主流文本生成图像 Transformer
这张生成的图像能检测吗1 个月前
pytorch·深度学习·机器学习·计算机视觉·3d·三维重建·扩散模型
Wonder3D: 跨域扩散的单图像3D重建技术论文题目:Wonder3D: Single Image to 3D using Cross-Domain Diffusion(Wonder3D:单图像到3D使用跨域扩散)
海边夕阳20062 个月前
人工智能·经验分享·深度学习·机器学习·扩散模型
【每天一个AI小知识】:什么是扩散模型?目录一、小张的插画创作困境:从故事说起二、扩散模型的基本概念2.1 什么是扩散模型?2.2 扩散模型的特点
Echo_NGC22372 个月前
人工智能·深度学习·神经网络·扩散模型·ddpm·高斯噪声
【DDPM 扩散模型】Part 7:最后总结!Denoising Diffusion Probabilistic Models论文全维度详解这是整个扩散模型体系从「基础 → 全局」的总结。 希望这篇文章能够让你真正理解DDPM扩散模型包含两个过程:
豆芽8192 个月前
人工智能·神经网络·计算机视觉·视觉检测·扩散模型
计算机视觉:异常检测(paper with code汇总更新中)本文汇总异常检测相关论文,持续更新,所有内容均为开源,欢迎交流学习!待更新[爱心][爱心][爱心]
JOYCE_Leo162 个月前
深度学习·扩散模型·图像复原
Learning Diffusion Texture Priors for Image Restoration(DTPM)-CVPR2024Paper:论文地址Code:Coming SoonBaseline:DDPM前言一、整体框架3.3. Stage I: Learning Diffusion Texture Priors
吐个泡泡v2 个月前
stable diffusion·transformer·扩散模型·ddpm·dit
扩散模型详解:从DDPM到Stable Diffusion再到DiT的技术演进扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域,本文从DDPM开始,逐步深入到Stable Diffusion和DiT架构。
李加号pluuuus2 个月前
扩散模型
【扩散基础】基于分数的扩散模型(Score-Based Diffusion Model)高斯分布下:噪声 ϵ 和 score 的关系
AI生成未来2 个月前
人工智能·扩散模型·视频编辑·视频生成
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!文章链接:https://arxiv.org/pdf/2509.07472 主页:https://gaowenshuo.github.io/AnyPortal/ Git链接:https://github.com/gaowenshuo/AnyPortalCode
m0_650108242 个月前
论文阅读·扩散模型·端到端自动驾驶·阶段扩散策略·高级联扩散解码器·cvpr2025
DiffusionDrive:面向端到端自动驾驶的截断扩散模型在端到端自动驾驶领域,传统扩散模型应用面临计算开销大、模态坍缩问题,现有多模态规划方法依赖大量锚点。华中科技大学与地平线机器人团队提出的 DiffusionDrive,创新设计截断扩散策略(锚定高斯分布 + 2 步去噪)与级联扩散解码器,在 NAVSIM 达 88.1 PDMS,NVIDIA 4090 上 45 FPS,兼顾性能与实时性。
AI生成未来2 个月前
aigc·扩散模型·视频生成·长视频
南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!论文链接:https://arxiv.org/pdf/2509.25161 项目链接:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/