Diffusion Model Noise Schedule

本文仅适用于已经了解什么是Diffusion Model的人。

我们知道,在Diffusion Model中存在正向扩散过程------破坏数据 逆向扩散过程------生成过程。在正向过程中,我们给定一个数据,随着时间步 t t t 逐渐给它添加噪声。而添加的噪声是我们已经预先设定好的噪声表。

今天这个文章浅浅总结一下Diffusion Model中常用的噪声表。

Linear Schedule

线性噪声表是出自Diffusion Model的经典之作《Denoising Diffusion Probabilistic Models》。

这这篇文章里,噪声表是取 1 0 − 4 , 0.02 10\^{-4},0.02 10−4,0.02进行线性插值形成噪声表。

Cosine Schedule

然后就来到了这篇文章:《Improved Denoising Diffusion Probabilistic Models》

在这篇文章中,作者觉得线性噪声表效果并不好。线性噪声调度对高分辨率图像效果较好,但对于分辨率为64 × 64和32 × 32的图像效果欠佳。并且在这些分辨率下,前向加噪过程的末尾噪声太大,因此对样本质量的贡献不大。

于是作者想要一个想要一个两端平滑中间线性下降噪声表,因此提出Cosine Schedule。

α t α_t αt构造了一个不同的噪声调度:
α ˉ t = f ( t ) f ( 0 ) , f ( t ) = cos ⁡ ( t / T + s 1 + s ⋅ π 2 ) 2 β t = 1 − α ˉ t α ˉ t − 1 \begin{aligned} & \bar{\alpha}_t=\frac{f(t)}{f(0)}, \quad f(t)=\cos \left(\frac{t / T+s}{1+s} \cdot \frac{\pi}{2}\right)^2 \\ & \beta_t=1-\frac{\bar{\alpha}t}{\bar{\alpha}{t-1}} \end{aligned} αˉt=f(0)f(t),f(t)=cos(1+st/T+s⋅2π)2βt=1−αˉt−1αˉt

限制 β t ≤ 0.999 β_t\leq0.999 βt≤0.999,以防止在扩散过程接近 t = T t = T t=T时出现奇怪现象。

Sqrt Schedule

在《Diffusion-LM Improves Controllable Text Generation》中,作者觉得前两种噪声表对文本数据不具有鲁棒性。作者认为在接近原始数据embedding的地方去噪比较简单,如果添加噪声太小,不足以扰乱数据,因此应该添加更大的噪声。所以提出Sqrt Schedule


α ˉ t = 1 − t / T + s \begin{aligned} \bar{\alpha}_t = 1-\sqrt{t / T+s} \end{aligned} αˉt=1−t/T+s

在Diffusion-LM中设置 s = 1 e − 4 s =1e^{-4} s=1e−4, T = 2000 T = 2000 T=2000, 标准差为 0.1 0.1 0.1。

Adaptive Schedule

《Seqdiffuseq: Text diffusion with encoder-decoder transformers》这篇论文提出了一种文本扩散方法,并针对预测难度随时间步增加的问题设计了自适应调度(adaptive schedule)。该方法通过学习噪声规模和损失之间的关系,实现在训练过程中根据损失来动态地更新噪声规模,以应对预测难度的增加。

在该论文中,作者认为随着时间步的增加,文本扩散任务的预测难度会线性增长。为了有效地应对这一挑战,作者引入了自适应调度的概念。具体而言,他们首先构建了一个噪声调度(noise schedule),该调度规定了在不同时间步应用不同程度的噪声以模拟预测难度的增加。然后,他们通过在训练数据上的实验,学习了噪声规模和损失之间的关系。

Mutual Information Schedule

在《Structured denoising diffusion models in discrete state spaces》这篇论文中,研究人员提出了一种离散状态空间下的结构化去噪扩散模型,并为离散扩散过程设计了互信息调度(mutual information schedule)。该调度通过对原始数据和隐变量之间的互信息进行线性插值,来引导模型的学习过程。在涵盖吸收状态的离散扩散模型中,该调度策略的具体形式如下:

β t = ( T − t + 1 ) − 1 \beta_t=(T-t+1)^{-1} βt=(T−t+1)−1

这个调度策略的核心思想是,在训练过程中逐渐引入随机性,以更好地平衡模型的学习过程。随着时间步的增加, β t \beta_t βt 逐渐减小,使得模型在初始阶段更加关注高互信息的部分,然后逐步引入更多噪声和随机性,以便更好地捕捉数据的分布特征。

Spindle Schedule

在《Diffusionbert: Improving generative masked language models with diffusion models》这篇论文中,提出了一种名为 "spindle schedule" 的策略,用于非自回归生成中。这个策略基于 "easy-first policy",认为在生成序列时,常见的单词应该较早地被生成出来,以便作为后续生成较少见单词时的上下文信息。具体而言,该策略通过调整单词被打乱的概率,使得包含更多信息量的单词更有可能被打乱。

在 spindle schedule 中,相对较少见的单词会在生成序列的前向过程的开始阶段被替换为 MASK,然后在去噪(恢复)阶段的结尾被逐渐恢复回其原始单词。这种策略的引入可以增强模型对上下文信息的捕捉,尤其是在生成相对不常见的单词时,从而提高非自回归生成模型的性能。

综上所述,spindle schedule 是一种用于非自回归生成的策略,通过调整单词的打乱概率,使得常见单词更早地被生成出来,从而增强了模型在不同单词的生成过程中的表现。

相关推荐
IT_陈寒2 小时前
Redis内存飙升的锅,原来是我没搞懂这个过期策略
前端·人工智能·后端
东坡肘子3 小时前
SPI 加入 Apple,Swift 迈向自举 -- 肘子的 Swift 周报 #142
人工智能·swiftui·swift
小和尚同志12 小时前
AI 自动化测试探索(二):Chrome-devtools MCP
人工智能·e2e·aigc
冬奇Lab14 小时前
Workflow 系列(02):设计范式——四层架构、三种 Context 传递模式与确认门设计
人工智能·agent·工作流引擎
冬奇Lab14 小时前
每日一个开源项目(第145篇):Trellis - 把项目记忆、规范和任务上下文持久化进代码仓库
人工智能·开源·资讯
有道AI情报局14 小时前
Harness即产品
人工智能·agent
罗西的思考15 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架
人工智能·算法·机器学习
IT_陈寒16 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端
笃行35016 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent
人工智能
用户68563262086917 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能