扩散模型(Diffusion Model)原理概述

一、核心思想

扩散模型(Diffusion Model)是一种生成模型,受热力学中扩散过程的启发,通过模拟数据从噪声中逐步去噪的过程来生成样本。其核心思想是渐进式地添加噪声(正向过程)和逐步去噪(反向过程)。 在正向过程中,逐步向数据中添加高斯噪声,最终将数据转化为纯噪声;在反向过程中,学习如何从噪声中逐步去噪,恢复出原始数据分布。

二、前向扩散过程(Forward Diffusion)

目标:将真实数据逐步"破坏"为随机噪声。

过程:对原始数据(如图像)进行 T 步微小的高斯噪声添加,每一步都让数据更接近纯噪声。

数学上,第t 步的状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> x t x_t </math>xt由第 t-1 步的状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> x t − 1 x_{t-1} </math>xt−1和噪声 <math xmlns="http://www.w3.org/1998/Math/MathML"> ϵ \epsilon </math>ϵ(服从标准正态分布)生成: <math xmlns="http://www.w3.org/1998/Math/MathML"> x t = α t ⋅ x t − 1 + 1 − α t ⋅ ϵ x_t=\sqrt{\alpha_t}\cdot x_{t-1}+\sqrt{1-\alpha_t}\cdot \epsilon </math>xt=αt ⋅xt−1+1−αt ⋅ϵ

其中, <math xmlns="http://www.w3.org/1998/Math/MathML"> α t \alpha_t </math>αt是控制噪声强度的参数( <math xmlns="http://www.w3.org/1998/Math/MathML"> 0 < α t < 1 ),随着 t 增大, x t 0<\alpha_t<1),随着 t 增大,x_t </math>0<αt<1),随着t增大,xt逐渐接近随机噪声。

结果 :经过 T 步后,原始数据完全转化为与训练数据无关的高斯噪声 <math xmlns="http://www.w3.org/1998/Math/MathML"> x T x_T </math>xT。

三、逆向扩散过程(Reverse Diffusion)

目标:从纯噪声中逐步"恢复"出有意义的数据(即生成新样本)。

过程 :训练一个神经网络(通常是 U-Net 结构)学习"去噪"能力 ------ 给定第 t 步的带噪声数据 <math xmlns="http://www.w3.org/1998/Math/MathML"> x t x_t </math>xt,预测它在第 t-1 步的状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> x t − 1 x_{t-1} </math>xt−1(或直接预测添加的噪声 <math xmlns="http://www.w3.org/1998/Math/MathML"> ϵ \epsilon </math>ϵ)。

实际生成时,从随机噪声 <math xmlns="http://www.w3.org/1998/Math/MathML"> x T x_T </math>xT出发,利用训练好的网络反向迭代 T 步,每一步都去除部分噪声,最终得到接近真实数据分布的生成结果 <math xmlns="http://www.w3.org/1998/Math/MathML"> x 0 x_0 </math>x0。

核心:神经网络通过学习噪声的分布规律,实现从噪声到数据的"逆推"。

四、Python示例

构建一个基础的扩散模型,用于生成一维数据。

python 复制代码
import matplotlib
matplotlib.use('TkAgg')

import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

plt.rcParams['font.sans-serif']=['SimHei']  # 中文支持
plt.rcParams['axes.unicode_minus']=False  # 负号显示


# 设置随机种子,确保结果可复现
np.random.seed(42)
torch.manual_seed(42)


# 生成一维数据(示例数据:混合高斯分布)
def generate_data(n_samples=1000):
    # 生成两个高斯分布的数据
    cluster1 = np.random.normal(loc=-2.0, scale=0.5, size=(n_samples // 2, 1))
    cluster2 = np.random.normal(loc=2.0, scale=0.5, size=(n_samples // 2, 1))
    data = np.vstack([cluster1, cluster2])
    np.random.shuffle(data)
    return data


# 前向过程:逐步添加噪声
def forward_process(x_0, timesteps, betas):
    """
    执行扩散过程的前向步骤,逐步向数据添加噪声
    """
    # 计算alpha和alpha_bar
    alphas = 1. - betas
    alphas_cumprod = torch.cumprod(alphas, dim=0)

    # 随机选择一个时间步
    t = torch.randint(0, timesteps, (x_0.shape[0],), device=x_0.device)

    # 从标准正态分布采样噪声
    noise = torch.randn_like(x_0)

    # 计算x_t
    sqrt_alphas_cumprod_t = torch.sqrt(alphas_cumprod[t]).reshape(-1, 1)
    sqrt_one_minus_alphas_cumprod_t = torch.sqrt(1 - alphas_cumprod[t]).reshape(-1, 1)
    x_t = sqrt_alphas_cumprod_t * x_0 + sqrt_one_minus_alphas_cumprod_t * noise

    return x_t, t, noise


# 简单的神经网络模型,用于预测噪声
class SimpleDenoiser(nn.Module):
    def __init__(self, input_dim=1, hidden_dim=128):
        super(SimpleDenoiser, self).__init__()
        self.model = nn.Sequential(
            nn.Linear(input_dim + 1, hidden_dim),  # +1 for time embedding
            nn.SiLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.SiLU(),
            nn.Linear(hidden_dim, input_dim)
        )

    def forward(self, x, t):
        # 将时间步t嵌入为模型输入的一部分
        t_emb = t.unsqueeze(-1).float()
        x_with_t = torch.cat([x, t_emb], dim=1)
        return self.model(x_with_t)


# 训练函数
def train_diffusion_model(model, dataloader, num_epochs=1000, lr=1e-3):
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model = model.to(device)
    optimizer = optim.Adam(model.parameters(), lr=lr)
    criterion = nn.MSELoss()

    # 定义扩散过程的参数
    timesteps = 100
    betas = torch.linspace(0.0001, 0.02, timesteps, device=device)

    for epoch in range(num_epochs):
        epoch_loss = 0.0
        for batch in dataloader:
            x_0 = batch[0].to(device)

            # 前向过程:添加噪声
            x_t, t, noise = forward_process(x_0, timesteps, betas)

            # 模型预测噪声
            noise_pred = model(x_t, t)

            # 计算损失
            loss = criterion(noise_pred, noise)

            # 反向传播和优化
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            epoch_loss += loss.item()

        if (epoch + 1) % 100 == 0:
            print(f"Epoch {epoch + 1}/{num_epochs}, Loss: {epoch_loss / len(dataloader):.6f}")

    return model


# 采样函数:从噪声中生成数据
def sample(model, sample_size=1000, timesteps=100):
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model = model.to(device)
    model.eval()

    # 定义扩散过程的参数
    betas = torch.linspace(0.0001, 0.02, timesteps, device=device)
    alphas = 1. - betas
    alphas_cumprod = torch.cumprod(alphas, dim=0)
    alphas_cumprod_prev = torch.cat([torch.tensor([1.], device=device), alphas_cumprod[:-1]])
    sqrt_recip_alphas = torch.sqrt(1.0 / alphas)
    posterior_variance = betas * (1. - alphas_cumprod_prev) / (1. - alphas_cumprod)

    # 从标准正态分布开始采样
    x = torch.randn(sample_size, 1, device=device)

    with torch.no_grad():
        for i in reversed(range(timesteps)):
            t = torch.full((sample_size,), i, device=device, dtype=torch.long)
            noise_pred = model(x, t)

            # 计算均值
            sqrt_recip_alphas_t = sqrt_recip_alphas[i]
            x = sqrt_recip_alphas_t * (x - betas[i] / torch.sqrt(1 - alphas_cumprod[i]) * noise_pred)

            # 添加方差(最后一步不添加)
            if i > 0:
                noise = torch.randn_like(x)
                posterior_variance_t = posterior_variance[i]
                x = x + torch.sqrt(posterior_variance_t) * noise

    return x.cpu().numpy()


# 主函数
def main():
    # 生成数据
    data = generate_data(n_samples=1000)
    data_tensor = torch.tensor(data, dtype=torch.float32)

    # 创建数据加载器
    dataset = TensorDataset(data_tensor)
    dataloader = DataLoader(dataset, batch_size=32, shuffle=True)

    # 初始化模型
    model = SimpleDenoiser(input_dim=1)

    # 训练模型
    trained_model = train_diffusion_model(model, dataloader, num_epochs=1000)

    # 生成样本
    samples = sample(trained_model, sample_size=1000)

    # 可视化结果
    plt.figure(figsize=(12, 5))

    plt.subplot(1, 2, 1)
    plt.hist(data, bins=50, density=True, alpha=0.7, label='真实数据')
    plt.title('真实数据分布')
    plt.xlabel('值')
    plt.ylabel('密度')
    plt.legend()

    plt.subplot(1, 2, 2)
    plt.hist(samples, bins=50, density=True, alpha=0.7, label='生成数据', color='orange')
    plt.title('扩散模型生成的数据分布')
    plt.xlabel('值')
    plt.ylabel('密度')
    plt.legend()

    plt.tight_layout()
    plt.show()


if __name__ == "__main__":
    main()

示例展示了扩散模型的主要过程:

数据生成 :使用两个高斯分布的混合作为示例数据

前向过程 :逐步向数据添加噪声,最终将数据转换为噪声

模型架构 :使用一个简单的神经网络来学习预测噪声

训练过程 :通过最小化预测噪声与实际噪声之间的差异来训练模型

采样过程:从噪声开始,逐步恢复数据

五、小结

扩散模型通过"加噪-去噪"的框架,将生成问题转化为对噪声分布的逐步修正,其核心在于反向过程的参数化学习和噪声调度的设计。这一方法在生成任务中展现了强大的潜力,成为当前生成式AI的重要技术之一。

相关推荐
陈天伟教授14 分钟前
人工智能应用- 语言处理:02.机器翻译:规则方法
人工智能·深度学习·神经网络·语言模型·自然语言处理·机器翻译
却道天凉_好个秋37 分钟前
Tensorflow数据增强(三):高级裁剪
人工智能·深度学习·tensorflow
Lun3866buzha42 分钟前
【深度学习应用】鸡蛋裂纹检测与分类:基于YOLOv3的智能识别系统,从图像采集到缺陷分类的完整实现
深度学习·yolo·分类
大江东去浪淘尽千古风流人物2 小时前
【VLN】VLN仿真与训练三要素 Dataset,Simulators,Benchmarks(2)
深度学习·算法·机器人·概率论·slam
cyyt2 小时前
深度学习周报(2.2~2.8)
人工智能·深度学习
2401_836235862 小时前
财务报表识别产品:从“数据搬运”到“智能决策”的技术革命
人工智能·科技·深度学习·ocr·生活
啊森要自信3 小时前
CANN runtime 深度解析:异构计算架构下运行时组件的性能保障与功能增强实现逻辑
深度学习·架构·transformer·cann
kyle~3 小时前
深度学习---长短期记忆网络LSTM
人工智能·深度学习·lstm
DatGuy3 小时前
Week 36: 量子深度学习入门:辛量子神经网络与物理守恒
人工智能·深度学习·神经网络
肾透侧视攻城狮3 小时前
《解锁计算机视觉:深度解析 PyTorch torchvision 核心与进阶技巧》
人工智能·深度学习·计算机视觉模快·支持的数据集类型·常用变换方法分类·图像分类流程实战·视觉模快高级功能