【论文阅读】Improving the Diffusability of Autoencoders

提升自编码器的"可扩散性"（diffusability）。

论文指出：目前常用的 autoencoder 潜空 间中含有太多高频成分，这会干扰扩散模型的"由粗到细"生成流程，从而降低生成质量。作者提出一种非常简单的正则化方法（scale equivariance），可显著提升图像和视频的生成效果。

研究背景

[Improving Diffusability](#Improving Diffusability)

[Blockwise 2D DCT](#Blockwise 2D DCT)

[Latent 空间频谱分析](#Latent 空间频谱分析)

[Scale Equivariance Regularization](#Scale Equivariance Regularization)

Experiments

[Improving Existing Autoencoders](#Improving Existing Autoencoders)

Ablations

个人理解

[related work](#related work)

研究背景

Latent Diffusion Models（LDM）基本结构包括：

一个 autoencoder（自编码器）：将高维图像压缩到低维 latent 空间；
一个 diffusion 模型：在 latent 空间中进行逐步生成。

虽然大量工作关注于：提高 autoencoder 的重建质量、增加 latent 压缩率、扩展 diffusion 模型规模；但作者指出：autoencoder 所生成的 latent 空间的频谱特性，与扩散过程的适配性（即 diffusability）缺乏系统研究。

论文核心问题：Diffusability 的退化。

什么是 Diffusability？

作者定义 diffusability 为： autoencoder 的 latent 表征 是否适合扩散模型中的 coarse-to-fine（由粗到细）生成过程。

作者发现：当前主流 autoencoder（尤其是 bottleneck 通道数较大者）在latent 中存在大量不自然的高频成分 ；这些高频会干扰 diffusion 模型的频谱构建流程，导致：

coarse-to-fine 过程被破坏；
模型需花更多计算拟合无用高频，生成质量下降；
更容易引入 artifact（视觉伪影）；
即便重建质量（PSNR/LPIPS）高，也不等于 diffusability 高。

频谱分析与实证观察：作者通过对多种主流 autoencoder（如 FluxAE、CosmosTokenizer、CogVideoX-AE、LTX-AE）进行频谱分析发现：

频率	RGB 空间	Latent 空间
低频	占主导，结构信息	削弱，信息不明显
高频	渐弱（自然图像特性）	异常增强，出现频谱"平台"现象

实验观察到：

Latent 的频谱呈现异常平坦（flat），特别在高通道维下；
高频在最终解码图像中仍有明显影响，会引入结构偏差和纹理错误；
传统的 KL 正则并未抑制这种高频，反而在部分设置下会放大该问题。

方法：引入 Scale Equivariance 正则。

核心思想：强制 latent 空间与 RGB 空间在不同缩放尺度下保持一致性（scale equivariance）

实现方式：

对 latent 表征下采样（如 1/2、1/4 尺度）；
对应地将原图也下采样；通过 decoder 解码后比较两者；
加入一个正则项，使：Decoder(Downsample(z)) ≈ Downsample(Decoder(z))

效果：抑制 latent 空间中的 spurious 高频成分；不需改动模型结构，仅需对 decoder 加正则；仅需 finetune 数千到 20K 步即可生效；极大提升 latent 对扩散过程的兼容性。

Improving Diffusability

深入分析 autoencoder latent 空间的频谱结构问题 ，并提出一种新颖的 scale equivariance 正则化策略，用于提升其在 latent diffusion 模型（LDM）中的可扩散性。

Blockwise 2D DCT

背景知识：

作者使用 二维离散余弦变换（2D DCT） 对图像和 latent 表征进行频谱分析，借此研究不同频率成分（特别是高频）在 latent 空间中的分布。将输入图像或 latent 分为多个不重叠的 B 小块。对每个小块执行 2D DCT，将空间域信号 Pxy 映射为频域系数 Duv：

Zigzag 排序与频谱曲线

采用 JPEG 的 zigzag 顺序从低频到高频排列频率分量，构造频谱曲线。

频谱定义：每个频率分量的归一化幅值：

该频谱曲线表示不同频率分量在图像或 latent 中的相对强度。

Latent 空间频谱分析

作者对 FluxAE 系列的 autoencoder（不同 bottleneck 通道数）进行训练，并分析其 latent 空间的频谱分布。

实验观察：

Flux latent 空间的高频成分显著强于 RGB 图像。
通道数越多，高频越强：通道数大 → 能表达更多细节 → 高频成分增加；但这些高频并不结构化，分布混乱，妨碍了 diffusion 的频谱建模。

KL 正则反而带来副作用：

传统的变分 autoencoder 使用 KL 正则将 latent 对齐到标准高斯分布，理论上有利于 diffusion 初始状态一致；
但实际中，KL 正则由于注入噪声，反而放大 latent 中的高频分量，降低 diffusability；如图 3 所示，KL 强度越高，高频越严重。

原因分析：

Diffusion 是一种频域自回归过程（先生成低频，再逐步合成高频）；
如果 latent 的频谱是平坦的（高低频差别小），则白噪声扰动无法做到"逐层合成"；
高频建模难度大，误差积累快，因此应尽量避免 latent 空间中存在大量高频。

Scale Equivariance Regularization

（尺度等变正则）为抑制 latent 中的高频问题，作者提出 尺度等变（scale equivariance）正则化，其目标有两个：

抑制 latent 空间中的高频分量；
避免 decoder 放大这些高频影响，确保输出图像频谱更自然。

方法步骤：

频谱对齐目标：

保证 latent 空间与 RGB 空间在不同频率尺度下的表现一致；
关键思想：在训练中下采样 latent 和图像，要求 decoder 能从低频重构对应低频图像。

实现方案：Downsampling + 多尺度 reconstruction loss：

对图像 x 和 latent 表征 z 分别下采样成 ~x 和 ~z；加入额外的重建损失项：

效果分析：

图 4：频谱曲线显示，高频被有效削弱，latent 更接近自然图像频谱；
图 8：相比 baseline，该正则方法保留更多内容，同时避免高频伪影；
图 6：在扩散过程中，采样轨迹更平滑、更结构化，展现健康的 coarse-to-fine 合成流程。

Experiments

围绕提出的 Scale Equivariance Regularization（SE 正则化） 进行实证研究。通过在图像和视频自动编码器（AE）上进行微调，展示该正则化对下游 Latent Diffusion Models (LDMs) 生成质量的提升，并进行了消融实验验证其独立有效性与合理性。

Improving Existing Autoencoders

（提升现有 AE）

数据设置

使用内部 in-the-wild 图像与视频数据训练所有 autoencoder，与 ImageNet-1K 与 Kinetics-700 保持无重叠，以防数据泄漏。
数据分布与 COYO、Panda-70M 等公开数据集相近。
为控制变量，所有 baseline autoencoder 均按相同数据和训练配置训练，仅不包含 SE 正则化。

评估指标

图像 LDM：FID（Frechet Inception Distance）和 FDD（基于 DINOv2 特征的 Frechet Distance）；
视频 LDM：FVD10K、FID、FDD（消融实验中用 5K 样本）；
Autoencoder 重建质量：PSNR、SSIM、LPIPS、FID；
采样量：图像模型评估使用 50,000 张图片，AE 评估使用 ImageNet/Kinetics 的 512 样本。

Image Autoencoders 微调实验

基线模型：

FluxAE（压缩率 8×8，16 latent 通道）
CMS-AEI（压缩率 16×16，16 latent 通道，高压缩比）

训练设置：

微调 10K 步，batch size = 32（总计 32 万张图像）
正则化时，随机选择 2× 或 4× 下采样比率

实验命名规则：

"vanilla"：原始 autoencoder，不含任何微调；
"+FT"：在同一数据上微调，不加正则；
"+FT-SE"：加入 SE 正则化微调

下游模型：使用 DiT 作为 diffusion backbone，并引入了一些架构改进（见附录）

结果（Table 1）：

FluxAE + FT-SE 比 vanilla 版本 FID 降低 19%
比 +FT（无正则）版本 FID 也降低 8%
CMS-AEI 性能未提升，原因是其本身训练 pipeline 被扰动，加入微调反而损害重建（FID 从 11.69 → 13.59）

Video Autoencoders 微调实验

基线模型：

CogVideoX-AE（CV-AE）：压缩率 4×8×8，16 latent 通道
LTXAE：压缩率 8×32×32，32 latent 通道，极高压缩比

训练设置：

微调 20K 步，batch size = 32
图像 batch 视为单帧视频，兼容因视频 AE 构造为 causal 结构

评估集：Kinetics-700

模型训练组合：

vanilla
+FT（不加正则）
+FT-SE（加 SE 正则）

结果（Table 2）：

CV-AE：FVD10K 降低 44%
LTXAE：FVD10K 降低 54%

说明：视频 AE 的 latent 结构更混乱，正则化收益更显著

额外实验：对 CV-AE 使用大模型 DiT-XL/2，发现 FVD10K 再降低一半，验证正则化对大模型也具扩展性。

Ablations

A. SE 正则化是否影响重建质量？

使用四项指标（PSNR, SSIM, LPIPS, FID）评估图像和视频 AE 的重建能力。

结果（Table 4）：加入 SE 正则后重建质量几乎不变。

说明：该方法能提升生成质量而不牺牲 autoencoder 重建能力。

B. 增加 KL 权重能否代替 SE？

在 DiT-S/2 上实验不同 KL 强度（β）：

KL β = 0.1 虽能提升 FID，但严重降低 PSNR
对大模型 DiT-L/2，性能下降明显，限制其扩展

对比：SE 正则不依赖 KL，且可适配不同大小模型，重建和生成都保持高质量

C. 是否是 implicit time shifting 造成性能提升？

SE 正则使 latent 更平滑，可能带来"隐式时间平移"效应（Gao et al., 2024）：即高频削弱，模型将计算资源用于低频，更稳定

实验：在不同时间偏移量设置下评估 FDD5K（见 Figure 10）

结果：FluxAE + FT-SE 在所有设置中始终表现最佳，说明性能提升并非来自 time shift，而是源于更好的 diffusability

D. 不同正则强度的影响？

在 FluxAE 上测试不同的 α（SE 正则 loss 权重）设置（见 Figure 9）：

越强的正则越压缩高频，生成质量更好，但重建性能下降
最终选用 α=0.25 平衡生成与重建性能

E. 直接削除高频（DCT Cut）是否也能提升质量？

在 DCT 域中逐步移除 latent 高频成分，并测量重建指标（Figure 8）

结果：加入 SE 正则后的 AE，在各频率截断比下表现都优于 baseline，表明其 latent 更频谱自然，鲁棒性更好。

个人理解

可以总结为一句话：好用的扩散模型不仅要有强大的"扩散主干"，还得有"懂得配合"的 autoencoder（自动编码器）------否则生成质量会大打折扣。

论文主要发现是什么？

以往工作优化 LDM 时，大多关注：

如何把扩散网络做得更大、更强（比如更深的 DiT backbone）
如何提升 autoencoder 的重建质量和压缩效率

但这篇论文指出：还有一个关键因素被忽视了 ------ autoencoder 的"可扩散性"（diffusability）。

什么是"diffusability"？

Diffusability 指的是：autoencoder 的 latent 表达是否适合扩散模型去一步步复原图像。

扩散模型本质上是一个"从模糊到清晰"的过程，它是先还原低频（轮廓、结构），再加上高频（纹理、细节）。但作者发现：很多现代 autoencoder 学出来的 latent 特征中，高频信号太强了，这反而破坏了扩散模型那种"粗到细"的生成逻辑，使得扩散效果变差。

他们是怎么发现的？

频谱分析：用 DCT（离散余弦变换）对 latent 表达进行频域分析，发现：
- 相比 RGB 图像的频谱，latent 空间的高频成分过多过强
- AE 的 bottleneck 通道越多，高频就越严重（因为能容纳更多细节）
实验验证：
- 使用原始 autoencoder 训练扩散模型，发现生成效果明显差于频谱更自然的 latent
KL 正则化其实帮倒忙：
- 原本 KL 用来让 latent 分布更接近高斯，但它无意中引入更多高频噪声，反而降低了 diffusability

怎么解决这个问题？

作者提出了一个简单但有效的正则化方法：Scale Equivariance Regularization，具体做法：

下采样输入图像和 latent（2×、4×）
训练 decoder 让下采样后的 latent 能还原出下采样后的图像
换句话说：强迫 decoder 保持"尺度等变性"，不放大高频信息

这样训练出来的 AE：

latent 中的高频成分少了
decoder 也不再盲目放大高频
更适合扩散模型进行从"模糊到清晰"的生成

实验结果说明什么？

图像生成 （ImageNet）：使用 FluxAE，加入 SE 正则后 FID 降低了 19%
视频生成 （Kinetics）：加入正则的 AE 在 FVD10K 上降低了 44%-54%
重建质量几乎不变
替代方案（如调 KL 权重）会影响重建效果，不如 SE 稳定可靠

要点	内容
核心问题	AE latent 的高频过强会影响扩散效果
发现手段	频谱分析（DCT）+ 系统实验
解决方法	用下采样做正则，让 decoder 不再过度使用高频信息（Scale Equivariance）
效果	提升生成质量，几乎不损失重建质量
意义	为改进 LDM 的整体结构提出新视角：不仅要压得好、复原准，还得"频谱友好"

另外感觉和FreeU 方法（《FreeU: Free Lunch in Diffusion U-Net》）这篇论文虽然研究切入点不同（一个聚焦于 U-Net 中 skip/base 分支权重重设，一个聚焦于 autoencoder latent 空间的频谱分布），但它们在核心思想上有共通性：

项目	FreeU	Improving Diffusability
问题	原始 U-Net 的跳连 (skip) 含有过多高频信息，会掩盖有意义的低频信号，降低去噪效果	autoencoder 的 latent 特征存在过强的高频分量，不利于扩散模型按"低频→高频"逐步生成
分析	网络结构视角（U-Net 路径信息分流）	频域视角（DCT 分析 latent 中的频谱能量分布）
对策	降低跳跃连接的通道权重、提升主干特征（base）权重，以平衡低/高频	对 autoencoder 做尺度等变正则（scale equivariance），通过下采样抑制 latent 中的高频
效果	提升生成图像清晰度与一致性，且无需再训练	降低 FID/FVD，提升 LDM 整体性能，几乎不损失重建精度

共通点	解释
都认为"高频 ≠ 高质量"	高频细节不是越多越好，过强反而会干扰扩散模型的 coarse-to-fine 特性
强调低频的重要性	扩散过程中，低频信息是模型"先看清结构"的关键，应该增强其引导作用
关注生成模型的"信息路径质量"	FreeU 关注 U-Net 的信息路径，Diffusability 关注 autoencoder 的 latent 表达，都是在优化扩散前的信息"承载路径"
都避免改变原始模型架构或再训练主模型	只对辅助部分（U-Net 权重或 autoencoder）进行轻量调整，无需大幅改动主干或重新训练大模型