提升自编码器的"可扩散性"(diffusability)。
论文指出:目前常用的 autoencoder 潜空 间中含有太多高频成分,这会干扰扩散模型的"由粗到细"生成流程,从而降低生成质量。作者提出一种非常简单的正则化方法(scale equivariance),可显著提升图像和视频的生成效果。
目录
[Improving Diffusability](#Improving Diffusability)
[Blockwise 2D DCT](#Blockwise 2D DCT)
[Latent 空间频谱分析](#Latent 空间频谱分析)
[Scale Equivariance Regularization](#Scale Equivariance Regularization)
[Improving Existing Autoencoders](#Improving Existing Autoencoders)
[related work](#related work)
研究背景
Latent Diffusion Models(LDM)基本结构包括:
- 一个 autoencoder(自编码器):将高维图像压缩到低维 latent 空间;
- 一个 diffusion 模型:在 latent 空间中进行逐步生成。
虽然大量工作关注于: 提高 autoencoder 的重建质量、增加 latent 压缩率、扩展 diffusion 模型规模; 但作者指出:autoencoder 所生成的 latent 空间的频谱特性,与扩散过程的适配性(即 diffusability)缺乏系统研究。
论文核心问题:Diffusability 的退化。
什么是 Diffusability?
作者定义 diffusability 为: autoencoder 的 latent 表征 是否适合扩散模型中的 coarse-to-fine(由粗到细)生成过程。
作者发现: 当前主流 autoencoder(尤其是 bottleneck 通道数较大者)在latent 中存在大量不自然的高频成分 ; 这些高频会干扰 diffusion 模型的频谱构建流程,导致:
- coarse-to-fine 过程被破坏;
- 模型需花更多计算拟合无用高频,生成质量下降;
- 更容易引入 artifact(视觉伪影);
- 即便重建质量(PSNR/LPIPS)高,也不等于 diffusability 高。
频谱分析与实证观察:作者通过对多种主流 autoencoder(如 FluxAE、CosmosTokenizer、CogVideoX-AE、LTX-AE)进行频谱分析发现:
频率 | RGB 空间 | Latent 空间 |
---|---|---|
低频 | 占主导,结构信息 | 削弱,信息不明显 |
高频 | 渐弱(自然图像特性) | 异常增强,出现频谱"平台"现象 |
实验观察到:
- Latent 的频谱呈现异常平坦(flat),特别在高通道维下;
- 高频在最终解码图像中仍有明显影响,会引入结构偏差和纹理错误;
- 传统的 KL 正则并未抑制这种高频,反而在部分设置下会放大该问题。
方法:引入 Scale Equivariance 正则。
核心思想: 强制 latent 空间与 RGB 空间在不同缩放尺度下保持一致性(scale equivariance)
实现方式:
- 对 latent 表征下采样(如 1/2、1/4 尺度);
- 对应地将原图也下采样; 通过 decoder 解码后比较两者;
- 加入一个正则项,使:Decoder(Downsample(z)) ≈ Downsample(Decoder(z))
效果: 抑制 latent 空间中的 spurious 高频成分; 不需改动模型结构,仅需对 decoder 加正则; 仅需 finetune 数千到 20K 步即可生效; 极大提升 latent 对扩散过程的兼容性。
Improving Diffusability
深入分析 autoencoder latent 空间的频谱结构问题 ,并提出一种新颖的 scale equivariance 正则化策略,用于提升其在 latent diffusion 模型(LDM)中的可扩散性。
Blockwise 2D DCT
背景知识:
作者使用 二维离散余弦变换(2D DCT) 对图像和 latent 表征进行频谱分析,借此研究不同频率成分(特别是高频)在 latent 空间中的分布。 将输入图像或 latent 分为多个不重叠的 B 小块。 对每个小块执行 2D DCT,将空间域信号 Pxy 映射为频域系数 Duv:

Zigzag 排序与频谱曲线
采用 JPEG 的 zigzag 顺序 从低频到高频排列频率分量,构造频谱曲线。
频谱定义:每个频率分量的归一化幅值:

该频谱曲线表示不同频率分量在图像或 latent 中的相对强度。
Latent 空间频谱分析
作者对 FluxAE 系列的 autoencoder(不同 bottleneck 通道数)进行训练,并分析其 latent 空间的频谱分布。
实验观察:
- Flux latent 空间的高频成分显著强于 RGB 图像。
- 通道数越多,高频越强: 通道数大 → 能表达更多细节 → 高频成分增加; 但这些高频并不结构化,分布混乱,妨碍了 diffusion 的频谱建模。
KL 正则反而带来副作用:
- 传统的变分 autoencoder 使用 KL 正则将 latent 对齐到标准高斯分布,理论上有利于 diffusion 初始状态一致;
- 但实际中,KL 正则由于注入噪声,反而放大 latent 中的高频分量,降低 diffusability; 如图 3 所示,KL 强度越高,高频越严重。
原因分析:
- Diffusion 是一种 频域自回归过程(先生成低频,再逐步合成高频);
- 如果 latent 的频谱是 平坦的(高低频差别小),则白噪声扰动无法做到"逐层合成";
- 高频建模难度大,误差积累快,因此应尽量避免 latent 空间中存在大量高频。
Scale Equivariance Regularization
(尺度等变正则) 为抑制 latent 中的高频问题,作者提出 尺度等变(scale equivariance)正则化,其目标有两个:
- 抑制 latent 空间中的高频分量;
- 避免 decoder 放大这些高频影响,确保输出图像频谱更自然。
方法步骤:
频谱对齐目标:
- 保证 latent 空间与 RGB 空间在不同频率尺度下的表现一致;
- 关键思想:在训练中下采样 latent 和图像,要求 decoder 能从低频重构对应低频图像。
实现方案:Downsampling + 多尺度 reconstruction loss:
对图像 x 和 latent 表征 z 分别下采样成 ~x 和 ~z; 加入额外的重建损失项:

效果分析:
- 图 4:频谱曲线显示,高频被有效削弱,latent 更接近自然图像频谱;
- 图 8:相比 baseline,该正则方法保留更多内容,同时避免高频伪影;
- 图 6:在扩散过程中,采样轨迹更平滑、更结构化,展现健康的 coarse-to-fine 合成流程。



Experiments
围绕提出的 Scale Equivariance Regularization(SE 正则化) 进行实证研究。通过在图像和视频自动编码器(AE)上进行微调,展示该正则化对下游 Latent Diffusion Models (LDMs) 生成质量的提升,并进行了消融实验验证其独立有效性与合理性。
Improving Existing Autoencoders
(提升现有 AE)
数据设置
- 使用内部 in-the-wild 图像与视频数据训练所有 autoencoder,与 ImageNet-1K 与 Kinetics-700 保持无重叠,以防数据泄漏。
- 数据分布与 COYO、Panda-70M 等公开数据集相近。
- 为控制变量,所有 baseline autoencoder 均按相同数据和训练配置训练,仅不包含 SE 正则化。
评估指标
- 图像 LDM:FID(Frechet Inception Distance)和 FDD(基于 DINOv2 特征的 Frechet Distance);
- 视频 LDM:FVD10K、FID、FDD(消融实验中用 5K 样本);
- Autoencoder 重建质量:PSNR、SSIM、LPIPS、FID;
- 采样量:图像模型评估使用 50,000 张图片,AE 评估使用 ImageNet/Kinetics 的 512 样本。
Image Autoencoders 微调实验
基线模型:
- FluxAE(压缩率 8×8,16 latent 通道)
- CMS-AEI(压缩率 16×16,16 latent 通道,高压缩比)
训练设置:
- 微调 10K 步,batch size = 32(总计 32 万张图像)
- 正则化时,随机选择 2× 或 4× 下采样比率
实验命名规则:
- "vanilla":原始 autoencoder,不含任何微调;
- "+FT":在同一数据上微调,不加正则;
- "+FT-SE":加入 SE 正则化微调
下游模型:使用 DiT 作为 diffusion backbone,并引入了一些架构改进(见附录)
结果(Table 1):
- FluxAE + FT-SE 比 vanilla 版本 FID 降低 19%
- 比 +FT(无正则)版本 FID 也降低 8%
- CMS-AEI 性能未提升,原因是其本身训练 pipeline 被扰动,加入微调反而损害重建(FID 从 11.69 → 13.59)
Video Autoencoders 微调实验
基线模型:
- CogVideoX-AE(CV-AE):压缩率 4×8×8,16 latent 通道
- LTXAE:压缩率 8×32×32,32 latent 通道,极高压缩比
训练设置:
- 微调 20K 步,batch size = 32
- 图像 batch 视为单帧视频,兼容因视频 AE 构造为 causal 结构
评估集:Kinetics-700
模型训练组合:
- vanilla
- +FT(不加正则)
- +FT-SE(加 SE 正则)
结果(Table 2):
- CV-AE:FVD10K 降低 44%
- LTXAE:FVD10K 降低 54%

说明:视频 AE 的 latent 结构更混乱,正则化收益更显著
额外实验:对 CV-AE 使用大模型 DiT-XL/2,发现 FVD10K 再降低一半,验证正则化对大模型也具扩展性。
Ablations
A. SE 正则化是否影响重建质量?
使用四项指标(PSNR, SSIM, LPIPS, FID)评估图像和视频 AE 的重建能力。
结果(Table 4):加入 SE 正则后重建质量几乎不变。
说明:该方法能提升生成质量而不牺牲 autoencoder 重建能力。

B. 增加 KL 权重能否代替 SE?
在 DiT-S/2 上实验不同 KL 强度(β):
- KL β = 0.1 虽能提升 FID,但 严重降低 PSNR
- 对大模型 DiT-L/2,性能下降明显,限制其扩展
对比:SE 正则不依赖 KL,且可适配不同大小模型,重建和生成都保持高质量
C. 是否是 implicit time shifting 造成性能提升?
SE 正则使 latent 更平滑,可能带来"隐式时间平移"效应(Gao et al., 2024): 即高频削弱,模型将计算资源用于低频,更稳定
实验:在不同时间偏移量设置下评估 FDD5K(见 Figure 10)
结果:FluxAE + FT-SE 在所有设置中始终表现最佳,说明性能提升并非来自 time shift,而是源于更好的 diffusability

D. 不同正则强度的影响?
在 FluxAE 上测试不同的 α(SE 正则 loss 权重)设置(见 Figure 9):
- 越强的正则越压缩高频,生成质量更好,但重建性能下降
- 最终选用 α=0.25 平衡生成与重建性能

E. 直接削除高频(DCT Cut)是否也能提升质量?
在 DCT 域中逐步移除 latent 高频成分,并测量重建指标(Figure 8)
结果:加入 SE 正则后的 AE,在各频率截断比下表现都优于 baseline,表明其 latent 更频谱自然,鲁棒性更好。

个人理解
可以总结为一句话: 好用的扩散模型不仅要有强大的"扩散主干",还得有"懂得配合"的 autoencoder(自动编码器)------否则生成质量会大打折扣。
论文主要发现是什么?
以往工作优化 LDM 时,大多关注:
-
如何把扩散网络做得更大、更强(比如更深的 DiT backbone)
-
如何提升 autoencoder 的重建质量和压缩效率
但这篇论文指出:还有一个关键因素被忽视了 ------ autoencoder 的"可扩散性"(diffusability)。
什么是"diffusability"?
Diffusability 指的是:autoencoder 的 latent 表达是否适合扩散模型去一步步复原图像。
扩散模型本质上是一个"从模糊到清晰"的过程,它是先还原低频(轮廓、结构),再加上高频(纹理、细节)。但作者发现:很多现代 autoencoder 学出来的 latent 特征中,高频信号太强了,这反而破坏了扩散模型那种"粗到细"的生成逻辑,使得扩散效果变差。
他们是怎么发现的?
-
频谱分析:用 DCT(离散余弦变换)对 latent 表达进行频域分析,发现:
-
相比 RGB 图像的频谱,latent 空间的高频成分过多过强
-
AE 的 bottleneck 通道越多,高频就越严重(因为能容纳更多细节)
-
-
实验验证:
- 使用原始 autoencoder 训练扩散模型,发现生成效果明显差于频谱更自然的 latent
-
KL 正则化其实帮倒忙:
- 原本 KL 用来让 latent 分布更接近高斯,但它无意中引入更多高频噪声,反而降低了 diffusability
怎么解决这个问题?
作者提出了一个简单但有效的正则化方法:Scale Equivariance Regularization,具体做法:
-
下采样输入图像和 latent(2×、4×)
-
训练 decoder 让下采样后的 latent 能还原出下采样后的图像
-
换句话说:强迫 decoder 保持"尺度等变性",不放大高频信息
这样训练出来的 AE:
-
latent 中的高频成分少了
-
decoder 也不再盲目放大高频
-
更适合扩散模型进行从"模糊到清晰"的生成
实验结果说明什么?
-
图像生成 (ImageNet):使用 FluxAE,加入 SE 正则后 FID 降低了 19%
-
视频生成 (Kinetics):加入正则的 AE 在 FVD10K 上降低了 44%-54%
-
重建质量几乎不变
-
替代方案(如调 KL 权重)会影响重建效果,不如 SE 稳定可靠
要点 | 内容 |
---|---|
核心问题 | AE latent 的高频过强会影响扩散效果 |
发现手段 | 频谱分析(DCT)+ 系统实验 |
解决方法 | 用下采样做正则,让 decoder 不再过度使用高频信息(Scale Equivariance) |
效果 | 提升生成质量,几乎不损失重建质量 |
意义 | 为改进 LDM 的整体结构提出新视角:不仅要压得好、复原准,还得"频谱友好" |
related work
另外感觉和FreeU 方法(《FreeU: Free Lunch in Diffusion U-Net》)这篇论文虽然研究切入点不同(一个聚焦于 U-Net 中 skip/base 分支权重重设,一个聚焦于 autoencoder latent 空间的频谱分布),但它们在核心思想上有共通性:
项目 | FreeU | Improving Diffusability |
---|---|---|
问题 | 原始 U-Net 的 跳连 (skip) 含有过多 高频信息,会掩盖有意义的低频信号,降低去噪效果 | autoencoder 的 latent 特征 存在过强的 高频分量,不利于扩散模型按"低频→高频"逐步生成 |
分析 | 网络结构视角(U-Net 路径信息分流) | 频域视角(DCT 分析 latent 中的频谱能量分布) |
对策 | 降低跳跃连接的通道权重 、提升主干特征(base)权重,以平衡低/高频 | 对 autoencoder 做 尺度等变正则(scale equivariance),通过下采样抑制 latent 中的高频 |
效果 | 提升生成图像清晰度与一致性,且无需再训练 | 降低 FID/FVD,提升 LDM 整体性能,几乎不损失重建精度 |
共通点 | 解释 |
---|---|
都认为"高频 ≠ 高质量" | 高频细节不是越多越好,过强反而会干扰扩散模型的 coarse-to-fine 特性 |
强调低频的重要性 | 扩散过程中,低频信息是模型"先看清结构"的关键,应该增强其引导作用 |
关注生成模型的"信息路径质量" | FreeU 关注 U-Net 的信息路径,Diffusability 关注 autoencoder 的 latent 表达,都是在优化扩散前的信息"承载路径" |
都避免改变原始模型架构或再训练主模型 | 只对辅助部分(U-Net 权重或 autoencoder)进行轻量调整,无需大幅改动主干或重新训练大模型 |