【论文阅读】FreeU: Free Lunch in Diffusion U-Net

李加号pluuuus2023-12-23 3:46

FreeU: 无需训练直接提升扩散模型生成效果。

贡献：

•研究并揭示了U-Net架构在扩散模型中去噪的潜力，并确定其主要骨干主要有助于去噪，而其跳过连接将高频特征引入解码器模块。

•介绍了"FreeU"，利用U-Net架构的两个组件的优势，来增强U-Net的去噪能力。提高了生成质量，而不需要额外的训练或微调。

•FreeU框架是通用的，与现有的扩散模型无缝集成。通过各种基于扩散的方法证明了样品质量的显著改善，显示了FreeU在不增加额外成本的情况下的有效性。

图2。去噪过程。顶部一行说明了图像在迭代中的渐进去噪过程，而随后的两行显示了傅里叶反变换后的低频和高频分量，匹配每一步。去噪过程中，低频分量变化缓慢，高频分量显著变化。

图4. FreeU框架。(a) U-Net跳跃特征和主干特征。在U-Net中，跳跃特征和主干特征在每个解码阶段被串联在一起。我们在串联过程中应用FreeU操作。(b) FreeU操作。因子b旨在放大主干特征图x，而因子s则设计为减弱跳跃特征图h。

图5. 主干和跳跃连接缩放因子（b和s）的影响。增加主干缩放因子b显著提高图像质量，而跳跃缩放因子s的变化对图像合成质量几乎没有影响。

图6. 随着主干缩放因子b的变化，傅里叶变换的相对对数振幅。增加b相应地会导致扩散模型生成的图像中高频分量的抑制。

图7. 主干、跳跃以及它们融合的特征图的傅里叶相对对数振幅。由编码器块较早层直接通过跳跃连接传递到解码器的特征包含大量的高频信息。

图8. 解码器第二阶段的平均特征图可视化。

表格1. 文本到图像的定量结果。我们分别统计了基准方法和我们的方法的投票百分比。

Image-Text指的是图像和文本的对齐情况。

表格2. 文本到视频的定量结果。我们分别统计了基准方法和我们的方法的投票百分比。

Video-Text指的是视频和文本的对齐情况。