【论文阅读+复现】LayoutDM: Transformer-based Diffusion Model for Layout Generation

Abstract

自动化高质量布局生成。虽然用生成对抗网络（GANs）和变分自编码器（VAEs）已经有不少进展，但GAN的多样性和分布覆盖有限、VAE生成质量又不够高。作者受扩散模型（Diffusion Models）在高质量图像生成领域的成功启发，提出将条件扩散模型（Conditional DDPM）与纯Transformer架构结合 ，创造出LayoutDM模型，用于条件布局生成。

LayoutDM既继承了transformer建模复杂关系的优势，也利用了DDPM的高分布覆盖及稳定训练目标，比GAN/VAE更优秀。实验也表明，LayoutDM在生成质量与多样性上领先于现有方法。

Introduction

现有方法及其局限

GANs可以生成高质量布局样本，缺点是训练不稳定、分布覆盖有限（多样性差）。
VAEs比GAN表现出更好的多样性和分布覆盖，但生成内容视觉效果不及GAN，且采样速度较慢。
二者都难以完全解决多样性、真实感、分布拟合和训练稳定性四者的平衡。

扩散模型的优势

DDPM（Denoising Diffusion Probabilistic Model）近年来在图像生成领域风头正劲，兼具高质量样本、强多样性、分布覆盖、目标函数收敛稳定、易扩展等优势。
但，直接迁移到布局生成有两大难点 ：
- 布局数据非像素网格，具有离散+连续+可变长度的结构，不适合常用的卷积网络（如U-Net）。
- 元素属性和元素间关系对布局有决定性作用，怎么用神经网络建模这些尤为关键。

论文创新点

用Transformer 取代 U-Net，作为反扩散网络，充分建模元素间复杂关系
设计出条件布局去噪器（cLayoutDenoiser），巧妙消融序列位置编码（不关心元素顺序），专注于空间关系
对比GAN与VAE，不仅生成质量高，还具备更强多样性、分布覆盖和稳定性

方法概述

1. 总体框架（LayoutDM）

包含一个前向扩散过程、一个反向去噪过程
前向过程：逐步添加高斯噪声（把原始布局扰乱）
反向过程：模型（cLayoutDenoiser）学会逐步从噪声还原布局

2. Transformer-based cLayoutDenoiser

用纯Transformer实现噪声预测，不依赖CV常用的卷积/U-Net
输入：被扰动的布局（带噪声）+ 布局元素特征f + 当前时间步t
输出：预测噪声分量，实现回溯去噪
不需要位置编码（Positional Encoding），因为元素没有顺序之分，强调元素间的相互关系而非"前后谁先谁后"

3. 条件生成

用户可以指定元素和属性（比如按钮、图片、文字模块的类型与尺寸等），模型据此生成可控属性下的多样化高质量布局。

主要贡献总结

创新：首次提出用Diffusion Model生成布局，并用纯Transformer替换传统U-Net骨干。
去噪器：设计了条件Transformer作为去噪器，强力建模复杂多元素关系。
实验：在多个数据集上大幅优于SOTA，兼得视觉质量和样本多样性。

Figure 1

a) LayoutDM整体架构：左侧是正向扩散过程（加噪声），右侧是反向过程（布局去噪器εθ），逐步还原布局。
b) cLayoutDenoiser架构：输入带噪声的元素属性+时间步，输出噪声预测。
c) 条件去噪器：能根据指定元素类别/属性，生成有控制的布局。

Method

3.1 Layout Representation

布局作为元素集合：每个布局由任意数量的元素组成，每个元素包括几何参数（位置和尺寸，如中心点坐标和宽高）以及属性（如类别标签或文本特征）。
形式化表达：布局表示为l = (g1, f1, g2, f2, ..., gN, fN)。gi = [xi, yi, wi, hi]，代表第i个元素的中心坐标和宽高；fi 是该元素的属性。
无序性：元素在序列中的顺序没有意义，因此交换g和f中的元素不会改变布局含义，这也是模型不用"序列位置信息编码"的理论依据。
归一化：所有几何参数都归一化到 [−1, 1] 区间，实现统一建模。

3.2 LayoutDM Architecture

整体概览：LayoutDM属于带条件的DDPM（Denoising Diffusion Probabilistic Model），区别在于这里用的是Transformer背骨而非U-Net。

核心思想：

正向扩散：逐步将布局几何参数加高斯噪声，直至变为完全噪声分布（近似高斯白噪声）。
反向去噪：用cLayoutDenoiser逐步从噪声恢复到可用的布局（受元素属性f引导，生成符合条件的多样化、高质量布局）。

关键公式：

3.3 Conditional Layout Denoiser

（条件布局去噪器，核心创新）

输入：t时刻的噪声布局 gt、元素属性 f 和 time step t。
模型：完全基于 Transformer，而不是CNN。
属性引导：将属性embedding嵌入到输入元素token，指导每步生成。
三大embedding ：
- GeometricEmbedding(gt)：将归一化坐标投到高维空间。
- AttributesEmbedding(f)：将离散类标签/文本property投到高维空间。
- TE(t)：sinusoidal时间步编码，使模型有"进度"感知。
ElementEmbedding过程 ：
- 将上述两个embedding拼接，然后用一个FC层融合生成element token，再加TE(t)。
多头自注意力Transformer结构 ：
- 堆叠8层，每层都进行多元素间关系建模，理解相互制约/吸引是高质量布局生成的关键。
- 不用传统transformer的"位置编码"，因为布局元素无顺序！
输出：对每个元素，预测其噪声分量（作为去噪依据）。

|------|------------------|--------------------------|
| 项目 | 传统 DDPM | LayoutDM |
| 主干网络 | UNet（CNN） | 纯 Transformer 架构 |
| 输入数据 | 图像（像素） | 布局元素序列（[x,y,w,h] + 属性） |
| 噪声注入 | 加在图像像素上 | 加在几何位置参数（layout box）上 |
| 条件输入 | class label / 图像 | 元素属性 f（如类别、语义） |

3.4 Training and Inference

损失函数（简化版）：

目标：让预测噪声和真实噪声尽量接近，训练cLayoutDenoiser高质量还原布局。
训练算法（Algorithm 1） ：
1. 随机采样真实布局(g0, f)、时间步t和噪声ε。
2. 得到添加噪声后的gt。
3. 用预测器εθ(gt, t, f)还原噪声，计算MSE，反向传播优化。
采样流程（Algorithm 2） ：
1. 从纯高斯噪声gT开始。
2. 逐步从T降到1，逆向用cLayoutDenoiser根据属性f指导，每次去噪一步，直至g0即布局结果。

Experiments

4.1 Experimental Settings

数据集 ：
1. Rico：手机UI大规模布局。
2. PublayNet：科学文档布局（文本、标题、表格等）。
3. Magazine：杂志。
4. COCO：自然场景目标。
5. TextLogo3K：文本logo的布局检测。
评估指标 ：
- FID（Fréchet Inception Distance）：越小越好，衡量生成分布与真实分布的接近度，综合多样性/拟真度。
- Max. IoU：找最佳匹配，测生成布局与真实布局重合质量。
- Overlap、Alignment：分别评判布局元素的重叠/对齐程度，反映感官美学。
实现细节 ：
- 步数T=1000，变异度β线性递增，8层Transformer，8头注意力。
- Adam优化器，lr=1e-5, batch size=1024, PyTorch Lightning, 单卡即可。

4.2 Quantitative Evaluation

与主流方法对比（基于Rico, PublayNet, Magazine等）

对象：LayoutGAN、LayoutGAN++、NDN、VTN等（有的引用前作结果，有的重实现对比）。
结论总结 ：
1. FID/MaxIoU指标：LayoutDM全线领先（意味着生成既多样又高质量）。甚至有的场景生成FID比验证集还低，因为采样属性和测试集一致，没引入复杂度。
2. Overlap/Alignment：略微劣于部分GAN/NDN方法，因为LayoutDM无判别器（GAN的判别器能严格优化对齐/重叠），也未采用精细化layout refine模块。
3. 更广泛SOTA对比：补充和BLT等最近模型对比，LayoutDM依然在各指标最优。

消融实验（Transformer结构有效性）

实验现象 ：
- 如果把Transformer换成全连接网络（FC），能拟合每个元素大小，但失去了全局/相对关系理解，表现为严重"堆叠""错位"。
- 说明自注意力机制（即Transformer结构）对解码和表达布局元素间复杂依赖至关重要。
- 见表3和图3，直观可见效果明显优于无Transformer版本。

4.3 Qualitative Comparisons

① 生成质量对比

实验设置：随机采样测试集的布局，输入类别标签作为生成条件，对比 LayoutDM、LayoutGAN++ 和条件 VTN（Conditional VTN）。
可视化结果（Fig.2） ：
- LayoutDM布局更合理、丰富、复杂，元素排列兼顾全局和细节，几乎没有重叠且对齐较好。
- LayoutGAN++ 和 VTN‌生成的结果则更容易出现元素重叠和对齐不佳等问题。

② 生成多样性对比

结果：LayoutDM 和 VTN 都显示出更强的布局多样性，同一组条件生成的结果不同，体现模型的高泛化能力。LayoutGAN++ 则很容易陷入模式坍缩（如大图片元素总是放在相同位置）。
归因：LayoutDM 通过逐步条件扩散建模，天然避免了GAN系常见的模式坍缩问题，使每一次采样都能探索更大解空间。

③ 渲染结果对比

实验方法：将生成的版面用真实素材"还原"成可视化的图形页面（如PublayNet）。
结果（Fig.5）：LayoutDM生成的页面布局完全合理，空间利用和对齐优于LayoutGAN++，而且无明显重叠现象。虽然简单裁剪和拉伸图片会导致失真，真实应用中可通过调整字体/图像自适应解决。

4.4 扩展任务（Extended Layout Generation Tasks）

1. 文本Logo布局生成

实验：在TextLogo3K数据集上生成logo布局（该数据集无标签，只能用字符/词嵌入为条件）。
方法变化：此处LayoutDM在Transformer中使用了位置编码（因为字符有阅读顺序需求）。
结果（Fig.6） ：
- LayoutDM保证了阅读顺序和美观，多字符布局还能灵活调整（而LogoGAN容易失败或只简单地水平排布）。
- 大量字符场景下，LayoutDM显著优于对手，生成效果更丰富、合理

2. 场景布局生成

实验：在COCO等自然场景数据集按场景元素标签生成布局。
结果（Fig.7） ：
- LayoutDM能合理预测并安排物体空间位置，"船在河中央，云在天空"，体现了模型对真实场景关系的"理解"。
- 并可结合下游模型直接生成高质量的场景图片。

4.5 主要局限性

单层画布：如同多数布局生成方法，目前只能处理所有元素在同一平面，不可表达多层叠加关系（前后遮挡）。
生成速度：扩散模型迭代去噪过程较慢，不能与VAEs快速采样相提并论。实际应用可能需要进一步加速优化或采用快速采样技术。

5. 结论

创新之处：首次将完全无序元素的Transformer结构扩散模型（LayoutDM）用于条件布局生成。
优势突出：融合了扩散模型的高分布覆盖与Transformer的强关系建模，兼得高质量、多样性与稳定性。
实验充分：大量定量定性对比，领先传统GAN/VAE类模型。

补充材料

数据集及评测划分说明

各数据集严格规范地划分了train/val/test，结果可信且保证公平对比。

评测指标详细解释

FID：用特征判别器中间层输出做分布匹配，度量生成和真实布局的分布距离。
MaxIoU：生成布局和真实参考集两两最佳重叠度评价。
Alignment：度量元素对齐性（左右/居中/上下）。
Overlap：总重叠比例。

对BLT等SOTA方法的补充对比

按BLT的方式，在PublayNet、Rico、Magazine等做了更全面的SOTA对比，LayoutDM始终全面领先。

为什么LayoutDM有时"比真实数据还低的FID"

因为LayoutDM生成时用到了test set的属性条件而验证集是随机分布，所以生成分布与test set高度匹配（比val更像test set），FID会更低。这一点作者也补充通过实验证明。

关于位置编码消融实验

不加位置编码（PE）：无序输入任意shuffle都不影响生成，高稳定性。
加上PE：输入顺序变化会导致错误解读和低质量输出。
充分说明LayoutDM结构自然满足布局元素无序性。