扩散模型

寻丶幽风7 小时前
论文阅读·人工智能·笔记·扩散模型·流匹配
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELINGFlow Matching 论文 扩散模型:根据中心极限定理,对原始图像不断加高斯噪声,最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布,形成离散的马尔科夫链。再通过逐步去噪得到原始图像。 Flow matching 采取直接将已知分布(如白噪声)转换为真实数据分布来生成数据,并且 Flow 是基于 Normalizing Flow,故而是可微双射。生成过程中变化的概率密度构成一个集合,称为概率密度路径 p t p_t pt ,T 为路径长度。初始数据 x 0 ∼ p 0 ( x
寻丶幽风9 天前
论文阅读·笔记·文生图·扩散模型·t2i
论文阅读笔记——PixArt-α,PixArt-δPixArt-α 论文 仅使用 28400 美元,28M 训练数据,训练时长为 SD 1.5 的 10.8%,只有 0.6B 参数量,达到接近商业应用的水准。 现有数据集存在的缺陷:图文匹配偏差、描述信息不完整、词汇多样性不足(长尾效应显著)、低质量数据。 为了实现低成本训练,华为采用了三阶段的训练策略:第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用
Panesle24 天前
大模型·transformer·音频·扩散模型·文本生成音乐
ACE-Step:扩散自编码文生音乐基座模型快速了解ACE-Step 是一款由 ACE Studio 和 StepFun 开发的新型开源音乐生成基础模型。它通过整合基于扩散的生成方式、Sana 的深度压缩自编码器(DCAE)以及轻量级线性变换器,在音乐生成速度、音乐连贯性和可控性等方面达到前所未有的高度,成功克服了现有方法的关键局限性。
wufeil1 个月前
深度学习·扩散模型·分子生成·药物设计·aidd·药效团·静电势
基于电子等排体的3D分子生成模型 ShEPhERD - 评测ShEPhERD 是一个由 MIT 开发的一个 3D 相互作用感知的 ligand-based的分子生成模型,以 arXiv 预印本的形式发表于 2024 年,被ICLR2025 会议接收。文章链接:https://openreview.net/pdf?id=KSLkFYHlYg
Jeremy_lf2 个月前
人工智能·文生图·transformer·多模态·扩散模型
【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统论文:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
寻丶幽风2 个月前
论文阅读·笔记·扩散模型·具身智能·双壁机器人
论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATIONRDT-1B 论文 模型表达与泛化能力:由于双臂操作中动作空间维度是单臂空间的两倍,传统方法难以建模其多模态分布。 数据:双臂数据少且不同机器人的物理结构和动作空间差异(如关节数、运动范围)导致数据分布不一致,直接合并训练可能引发负迁移(negative transfer)。
AI生成未来2 个月前
扩散模型·图像生成·合成模型
MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!论文链接:https://arxiv.org/pdf/2502.17437 代码链接:https://github.com/LTH14/fractalgen
next_travel2 个月前
风格迁移·扩散模型
注意力蒸馏技术本周阅读了一篇25年二月份发表于CVPR 的论文《Attention Distillation: A Unified Approach to Visual Characteristics Transfer》,论文开发了Attention Distillation引导采样,这是一种改进的分类器引导方法,将注意力蒸馏损失整合到去噪过程中,大大加快了合成速度,并支持广泛的视觉特征迁移和合成应用。
小喵要摸鱼2 个月前
开源·扩散模型·hugging face·diffusers 库
【Hugging Face 开源库】Diffusers 库 —— 扩散模型Diffusers 是 Hugging Face 开源的 Python 库,专门用于加载、训练和推理扩散模型(Diffusion Models)。
东荷新绿2 个月前
论文阅读·扩散模型·盲人脸复原
【CVPR-2023】DR2:解决盲人脸复原无法覆盖真实世界所有退化的问题写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!
杀生丸学AI4 个月前
人工智能·3d·aigc·三维重建·扩散模型·高斯泼溅
【三维重建】FeatureGS:特征值优化的几何精度和伪影减少3DGS的重构文章:https://arxiv.org/pdf/2501.17655 标题:FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction
LittleNyima4 个月前
人工智能·笔记·深度学习·aigc·扩散模型
【笔记】扩散模型(一〇):Dreambooth 理论与实现|主题驱动生成论文链接:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
Jeremy_lf4 个月前
stable diffusion·aigc·ar·扩散模型·视觉自回归模型
【生成模型之十四】Visual Autoregressive Modeling论文:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
datamonday4 个月前
扩散模型·具身智能·rdt·vla·dit
[EAI-027] RDT-1B,目前最大的用于机器人双臂操作的机器人基础模型论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者:Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接:https://arxiv.org/abs/2410.07864v1 项目主页:https://rdt-robotics.github.io/rdt-
datamonday4 个月前
扩散模型·具身智能·vla·vlm·diffusionvla
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接:https://arxiv
ScienceLi11254 个月前
stable diffusion·扩散模型
Stable diffusion 3.0Esser P, Kulal S, Blattmann A, et al. Scaling rectified flow transformers for high-resolution image synthesis[C]//Forty-first International Conference on Machine Learning. 2024.
ScienceLi11254 个月前
微调·扩散模型·视频生成
Tune-A-Video:使用图像扩散模型进行一次微调实现文本到视频的生成Paper: Wu J Z, Ge Y, Wang X, et al. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 7623-7633. Introduction: https://tuneavideo.github.
杀生丸学AI5 个月前
人工智能·大模型·aigc·文生视频·svd·扩散模型·视频生成
【AIGC】SYNCAMMASTER:多视角多像机的视频生成标题:SYNCAMMASTER: SYNCHRONIZING MULTI-CAMERA VIDEO GENERATION FROM DIVERSE VIEWPOINTS 主页:https://jianhongbai.github.io/SynCamMaster/ 代码:https://github.com/KwaiVGI/SynCamMaster
Struart_R5 个月前
人工智能·计算机视觉·3d·风格迁移·扩散模型·视频生成·3dgs
StyleGaussian: Instant 3D Style Transferwith Gaussian Splatting 论文解读目录一、概述二、相关工作1、辐射场2、3D编辑3、风格迁移三、StyleGaussian1、特征嵌入2、风格迁移
Struart_R5 个月前
人工智能·深度学习·计算机视觉·3d·transformer·扩散模型·视频生成
HunyuanVideo: A Systematic Framework For LargeVideo Generative Models 论文解读目录一、概述二、相关工作三、Hunyuan Video1、总论2、数据预处理2.1数据过滤2.2数据注释