生成模型

生成对抗网络 (GAN) 详解生成对抗网络（Generative Adversarial Network, GAN）是Ian Goodfellow等人于2014年提出的一种生成模型框架。它的核心思想是通过两个神经网络的对抗训练来学习数据分布，从而生成逼真的数据样本。

阿钱真强道

07 ComfyUI + SVD 系列（五）GAN、VAE、扩散模型到底有什么区别？一篇文章讲清楚 AI 绘图模型的前世今生这两年，AI 绘图已经强到什么程度了？你输入一句话：几秒钟之后，一张像模像样、甚至细节惊人的图片就出来了。

风巽·剑染春水

【扩散模型原理】（三）Score-Based Perspective: From EBMs to NCSN《扩散模型原理：从起源到发展》：第三章基于分数的视角：从 EBMs 到 NCSN专著：The Principles of Diffusion Models

Flow Matching&生成算法今天学习flow matching算法。Flow matching是近年来生成模型领域中快速崛起的一类新方法。许多先进模型如stable diffusion3 imagen3都采用了它的核心思想。他通过直接学习概率流的方式，将简单分布平滑地变为复杂的数据分布，比传统扩散模型更高效、训练更稳，采样更快。Flow match解决了过去噪声预测不稳定、采样步骤多等问题，为下一代生成模型奠定了重要的基础。

啊阿狸不会拉杆

《计算机视觉：模型、学习和推理》第 6 章-视觉学习和推理目录前言6.1 计算机视觉问题6.2 模型的种类6.2.1 判别模型6.2.2 生成模型6.3 示例 1：回归

RAG：基于检索的生成技术入门与实践指引基于检索的生成技术（RAG, Retrieval Augmented Generation）是一种结合自然语言生成与知识检索的技术。近年来，随着 AI 技术的迅猛发展，RAG 在提升模型生成质量、引入外部知识库增强模型能力方面展示了巨大的潜力。本文旨在为读者提供一个关于 RAG 技术的基础性介绍与实战指南。

PyTorch实战（23）——基于Transformer生成音乐我们已经学习了如何使用 MuseGAN 生成逼真的多音轨音乐。MuseGAN 将一段音乐视为一个类似图像的多维对象，并生成与训练数据集中相似的音乐作品。在本节中，将采另一种方法来创作音乐，将音乐视为一系列音乐事件。具体来说，将开发一个类似 GPT 的模型，基于序列中所有先前事件来预测下一个音乐事件。本节将创建的音乐 Transformer 拥有 2016 万个参数，足以捕捉不同音符在音乐作品中的长期关系，同时也可以在合理的时间内完成训练。我们将使用 Maestro 钢琴音乐作为训练数据，MIDI 文件转

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践在本节中，我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程，实现从"纯噪声+文本"生成图像，而不仅是从纯噪声生成。

PyTorch实战（21）——扩散模型（Diffusion Model）我们已经学习了如何使用生成对抗网络 (Generative Adversarial Network, GAN) 生成图像。本节将探讨一种更前沿的图像生成范式——扩散模型 (Diffusion Model)。我们将首先解析扩散模型的工作原理，然后使用 PyTorch 从零开始训练扩散模型以生成逼真图像。通过本节学习，将掌握使用 PyTorch 从零开始训练扩散模型的完整流程。

PyTorch生成式人工智能（30）——扩散模型（Diffusion Model）文本生成图像 (text-to-image) Transformer 模型，如 OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion，能够根据文本描述生成高质量的图像。这些文本生成图像的模型包含三个核心组成部分：一个文本编码器，将文本压缩成潜表示；一个将文本信息融入图像生成过程的方法；以及一个扩散机制，逐步优化图像以产生逼真的输出。理解扩散机制对于理解文本生成图像 Transformer 尤其重要，因为扩散模型构成了所有主流文本生成图像 Transformer

PyTorch实战——pix2pix详解与实现我们已经深入探讨了生成对抗网络 (Generative Adversarial Network, GAN) 模型，现有数百种不同类型的 GAN 变体，且仍在持续涌现。这些 GAN 变体的差异主要体现在以下三方面：目标应用长场景、基础模型架构和优化策略调整(如损失函数修改)。例如，超分辨率 GAN (SRGAN) 用于提升低分辨率图像的分辨率；CycleGAN 采用双生成器架构；最小二乘 GAN (LSGAN) 使用均方误差替代传统交叉熵作为判别器损失。在本节中，我们将探讨与神经风格迁移模型相关的一种 G

PyTorch实战（20）——生成对抗网络（Generative Adversarial Network，GAN）生成式人工智能已成为当前研究的热门领域，生成对抗网络 (Generative Adversarial Network, GAN) 模型于 2014 年提出，自基础 GAN 架构诞生以来，针对不同应用场景的各类 GAN 变体不断涌现并持续演进。与变分自编码器 (Variational Autoencoder, VAE) 不同，VAE 可以学习数据的潜分布，并通过从该分布中采样生成新的样本；自回归模型则逐步生成数据，每次生成一个元素，并以之前生成的元素为条件生成数据。而 GAN 无需显式建模数据分布，即可生

这张生成的图像能检测吗

（论文速读）VJTNN+GAN分子优化的图到图翻译论文题目：Learning Multimodal Graph-to-Graph Translation for Molecular Optimization（学习用于分子优化的多模态图到图转换）

带噪学习 | Ambient Diffusion (NeurIPS 2023) 上篇Ambient Diffusion是首个基于扩散模型的框架，可仅通过高度损坏的样本（如缺失 90% 像素的图像）学习干净数据的分布，其核心思路是在扩散过程中引入额外测量失真，要求模型从进一步损坏的图像中预测原始损坏图像，能避免生成模型记忆训练样本，在 CelebA、CIFAR-10、AFHQ 等基准数据集上表现优异，还可在单 GPU 上仅用数小时微调基础模型（如 Deepfloyd IF），适用于 MRI 扫描等小样本损坏数据集，同时在逆问题求解中仅需 1 步预测就可比肩需数百步的现有方法。

生成模型实战 | 残差流（Residual Flow）详解与实现残差流模型 (Residual Flow) 是一种基于归一化流 (Normalizing Flow) 的生成模型，它通过一系列可逆的残差变换将简单分布(如高斯分布)转换为复杂的数据分布。与传统的归一化流不同，残差流使用残差连接来构建可逆变换，这使得模型能够构建更深的网络结构。在本节中，我们将介绍残差流模型的基本原理并使用 PyTorch 从零开始实现残差流模型。

深度学习中的“压缩与解压“艺术：自编码器与VAE详解想象一下你拍了一张高清照片，文件大小动辄几MB甚至几十MB。为了方便传输，你需要把它压缩到几百KB，但又希望解压后看起来依然清晰。这就像我们今天要聊的自编码器——一个会"压缩与解压"的神经网络。

PyTorch实战（16）——基于LSTM实现音乐生成本节我们将介绍音乐生成，利用 PyTorch 构建能够创作类古典音乐的机器学习模型。在本节中，我们将采用长短期记忆网络 (Long Short-Term Memory, LSTM) 来处理序列化音乐数据。训练数据选自莫扎特的古典音乐作品，每首乐曲将被分解为钢琴音符序列。读取以 MIDI (Musical Instrument Digital Interface) 格式存储的音乐数据，MIDI 是一种跨设备、跨环境读写音乐数据的通用标准格式。在将 MIDI 文件转换为钢琴音符序列(即钢琴卷帘谱，piano

生成模型实战 | BERT详解与实现BERT (Bidirectional Encoder Representations from Transformers) 是 Google 在提出的预训练语言模型，它通过 Transformer 编码器结构和掩码语言模型 (Masked Language Model, MLM) 任务，实现了真正的双向上下文理解。在本节中，我们将学习如何从零开始训练自编码语言模型。训练过程包括模型的预训练和针对特定任务的训练。首先，学习 BERT (Bidirectional Encoder Representatio

这张生成的图像能检测吗

（论文速读）InteractVLM: 基于2D基础模型的3D交互推理论文题目：InteractVLM: 3D Interaction Reasoning from 2D Foundational Models（基于2D基础模型的3D交互推理）

【医学影像 AI】一种用于生成逼真的3D血管的分层部件生成模型更多内容请关注【医学影像 AI by youcans@Xidian 专栏】2025 年清华大学 Siqi Chen 等在 MICCAI2025 发表论文 “一种用于生成逼真的3D血管的分层部件生成模型（Hierarchical Part-based Generative Model for Realistic 3D Blood Vessel）”。