扩散模型

这张生成的图像能检测吗

（综述）扩散模型设计基础深度解析：从三大组件到未来趋势论文题目：On the design fundamentals of diffusion models: A survey（扩散模型的设计基础综述）

扩散模型（Diffusion Model）原理概述扩散模型（Diffusion Model）是一种生成模型，受热力学中扩散过程的启发，通过模拟数据从噪声中逐步去噪的过程来生成样本。其核心思想是渐进式地添加噪声（正向过程）和逐步去噪（反向过程）。在正向过程中，逐步向数据中添加高斯噪声，最终将数据转化为纯噪声；在反向过程中，学习如何从噪声中逐步去噪，恢复出原始数据分布。

音视频牛哥

计算机视觉的新浪潮：扩散模型（Diffusion Models）技术剖析与应用前景近年来，扩散模型（Diffusion Models, DMs）迅速崛起，成为计算机视觉领域最令人瞩目的生成模型之一。从生成高质量图像到风格迁移、图像修复，再到文本驱动图像生成（如 DALL·E 2、Stable Diffusion、Midjourney），扩散模型正以惊人的速度改变着视觉内容生成的格局。

Seedance：字节发布视频生成基础模型新SOTA，能力全面提升Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型，旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成，实现了跨多样化场景的全面学习；采用高效的架构设计，支持多镜头生成以及文本到视频和图像到视频任务的联合学习；通过细粒度监督微调和多维度奖励机制的强化学习，显著提升了模型性能；并借助多阶段蒸馏策略和系统级优化，实现了 10 倍的推理加速。

论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELINGFlow Matching 论文扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。 Flow matching 采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且 Flow 是基于 Normalizing Flow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概率密度路径 p t p_t pt ，T 为路径长度。初始数据 x 0 ∼ p 0 ( x

论文阅读笔记——PixArt-α，PixArt-δPixArt-α 论文仅使用 28400 美元，28M 训练数据，训练时长为 SD 1.5 的 10.8%，只有 0.6B 参数量，达到接近商业应用的水准。现有数据集存在的缺陷：图文匹配偏差、描述信息不完整、词汇多样性不足（长尾效应显著）、低质量数据。为了实现低成本训练，华为采用了三阶段的训练策略：第一个阶段是学习像素依赖关系，简单来说是先学习生成真实的图像，这里是用ImageNet数据集训练一个基于类别的条件扩散模型；然后是学习文本和图像的对齐，即学习文本作为条件下的图像生成，这里的一个关键是采用

ACE-Step：扩散自编码文生音乐基座模型快速了解ACE-Step 是一款由 ACE Studio 和 StepFun 开发的新型开源音乐生成基础模型。它通过整合基于扩散的生成方式、Sana 的深度压缩自编码器（DCAE）以及轻量级线性变换器，在音乐生成速度、音乐连贯性和可控性等方面达到前所未有的高度，成功克服了现有方法的关键局限性。

基于电子等排体的3D分子生成模型 ShEPhERD - 评测ShEPhERD 是一个由 MIT 开发的一个 3D 相互作用感知的 ligand-based的分子生成模型，以 arXiv 预印本的形式发表于 2024 年，被ICLR2025 会议接收。文章链接：https://openreview.net/pdf?id=KSLkFYHlYg

【图像生成之21】融合了Transformer与Diffusion，Meta新作Transfusion实现图像与语言大一统论文：Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATIONRDT-1B 论文模型表达与泛化能力：由于双臂操作中动作空间维度是单臂空间的两倍，传统方法难以建模其多模态分布。数据：双臂数据少且不同机器人的物理结构和动作空间差异（如关节数、运动范围）导致数据分布不一致，直接合并训练可能引发负迁移（negative transfer）。

MIT何恺明再次突破传统：分形递归架构引爆生成模型新纪元！论文链接：https://arxiv.org/pdf/2502.17437 代码链接：https://github.com/LTH14/fractalgen

注意力蒸馏技术本周阅读了一篇25年二月份发表于CVPR 的论文《Attention Distillation: A Unified Approach to Visual Characteristics Transfer》,论文开发了Attention Distillation引导采样，这是一种改进的分类器引导方法，将注意力蒸馏损失整合到去噪过程中，大大加快了合成速度，并支持广泛的视觉特征迁移和合成应用。

小喵要摸鱼

【Hugging Face 开源库】Diffusers 库 —— 扩散模型Diffusers 是 Hugging Face 开源的 Python 库，专门用于加载、训练和推理扩散模型（Diffusion Models）。

【CVPR-2023】DR2：解决盲人脸复原无法覆盖真实世界所有退化的问题写在前面：本博客仅作记录学习之用，部分图片来自网络，如需引用请注明出处，同时如有侵犯您的权益，请联系删除！

【三维重建】FeatureGS:特征值优化的几何精度和伪影减少3DGS的重构文章：https://arxiv.org/pdf/2501.17655 标题：FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

【笔记】扩散模型（一〇）：Dreambooth 理论与实现｜主题驱动生成论文链接：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

【生成模型之十四】Visual Autoregressive Modeling论文：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

[EAI-027] RDT-1B，目前最大的用于机器人双臂操作的机器人基础模型论文标题：RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者：Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接：https://arxiv.org/abs/2410.07864v1 项目主页：https://rdt-robotics.github.io/rdt-

[EAI-028] Diffusion-VLA，能够进行多模态推理和机器人动作预测的VLA模型论文标题：Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者：Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接：https://arxiv