学习周报二十八

摘要

本周深入研读了基于U-Net的像素级解码器（DiP）相关研究，该工作旨在提升扩散Transformer（DiT）在图像生成中的像素级细节重建能力。研究系统探究了像素级网络的两个关键设计空间：网络引入位置（后置、内部回注、混合注入）与网络架构选择（标准MLP、坐标MLP、块内Transformer、U-Net）。实验表明，在DiT后端接入一个轻量级U-Net解码器，能够在最小化架构改动的前提下，最有效地改善生成图像的视觉保真度（FID指标），并实现较好的训练效率平衡。

Abstract

This week focused on an in-depth study of Diffusion with Pixel-aware Decoders (DiP), which aims to enhance the pixel-level detail reconstruction capability of Diffusion Transformers (DiT) in image generation. The research systematically investigated two key design spaces for the pixel-level network: the insertion point (post-hoc, internal feedback, hybrid) and the network architecture (standard MLP, coordinate-based MLP, intra-patch Transformer, U-Net). Experiments demonstrate that appending a lightweight U-Net decoder to the DiT backend most effectively improves the visual fidelity (FID metric) of generated images with minimal architectural modifications, achieving a favorable balance with training efficiency.

1、DiP - 基于 U-Net 的像素级解码器

1.1 总览

DiP 探究了网络设计的两个设计空间：

应该在哪个地方引入像素级网络？是在 DiT 后面接一个新网络，还是将像素级网络的输出传给 DiT？

像素级网络应该用哪个架构？

从引入网络的位置来看，论文测试了三类方式：

DiT 完成后再接 head

将高频信息回注到 DiT 内部

混合注入

三类方式的示意图及实验结果如下图所示。实验结果包括 FID 指标及网络中间特征在不同类别图像下的 t-SNE 可视化结果。

从实验结果来看，三种方法都能提升 FID。不过，接在 DiT 后面的效果最好，且实现最简单，因为加入它时完全不用修改 DiT 的架构。这也证明我们的直觉是正确的：用一个小型解码器取代 unpatchify 比较好，不需要修改 DiT 的其他部分。论文最终采用的就是这个配置。

此外，论文尝试了多种解码器架构。所有解码器的输入输出都是形状为 pxpx3 的像素级 token，条件信息为 DiT 的在该 patch 处的输出特征。该网络不直接包含 patch 与 patch 之间的信息交流，全局信息仅靠 DiT 输出特征提供。

标准 MLP：即一个把所有输入 flatten 的全连接网络，而不是 Transformer 里那种逐元素 MLP。这个做法仅仅是 patchify 的一个升级，网络的输入和输出还是高维的，并没有利用 patch 内部的空间信息。

坐标 MLP：类似 NeRF 的结构，目的是用神经网络表示一张连续的 2D 图像。我们用 DiT 的输出来生成 MLP 的权重，通过输入二维坐标来读取此处的输出像素值。这和之前的工作 PixNerd 完全一致。

块内 Transformer：用一个小型 Transformer，对一个 patch 内所有像素级特征做 attention。缺点是效率低。

U-Net（最终选择）：标准去噪 U-Net。DiT 条件信息会拼接到 U-Net 的最深层。

表格下半部分的实验结果显示，U-Net 是生成质量最高且训练效率最高的。由于加入 U-Net 实际上增加了总网络参数，我们或许会怀疑继续增大 DiT 参数能否达到同样效果。但表格上半部分的实验结果显示，增加 DiT 参数的作用没有加一个像素级 U-Net 明显。

1.2 分析

DiP 确实出色解决了像素 DiT 生成任务。FID 超越了之前所有方法。

论文的实验表格有取巧之嫌：ImageNet-256 实验表格没有放最先进，比自己效果更好的 LDM 方法。我这里展示了 DiP 和此前最好方法 PixNerd 的对比。从效果上看，DiP 没有明显好于 PixNerd。但从上一个表格看，DiP 比 PixNerd 快很多。

经作者指正，上表的 Coordinate-based MLP 就是 PixNerd。论文表格会很快更新。

总结

本周通过对DiP论文的详细解析，深入理解了提升DiT模型像素级生成质量的核心思路与技术路径。