MaskGIT掩码生成图算法详解（MaskGIT: Masked Generative Image Transformer）

本文提出了一种基于双向Transformer和掩码预测的高效图像生成方法。通过掩码视觉token建模(MVTM)训练双向注意力模型，并采用迭代并行解码策略，解决了传统自回归Transformer生成效率低的问题。创新性地设计了余弦掩码调度函数和置信度筛选机制，仅需8-12步即可生成高质量图像，比自回归方法加速64倍。实验表明，该方法在ImageNet 256×256上FID降至6.18，IS提升至182.1。同时展示了该方法在图像编辑任务中的扩展性，无需修改架构即可实现类条件编辑、图像修复等任务。

现有方法局限性

提出的方法

具体方法

注：图像外推（Image Extrapolation） 是一种图像生成技术，旨在从已知的图像区域推断和生成未知的外部区域 ，扩展图像的边界和内容。与图像补全（inpainting）通常处理内部缺失不同，外推主要关注向外扩展。

现有方法局限性

**1.**自回归Transformer的序列生成效率低

问题：传统生成式Transformer（如VQGAN、ImageGPT）将图像视为一维序列，按光栅扫描顺序（从左到右、逐行）逐token生成。

局限性：
生成速度慢 ：序列长度随图像分辨率平方增长（如256×256图像需256步生成），GPU生成单张图像耗时可达30秒。
非并行化 ：每一步依赖前一步结果，无法利用硬件并行加速。
方向性限制 ：仅依赖上文信息，无法利用双向上下文，导致细节生成不协调。

2**.**GAN模型的固有缺陷
训练不稳定与模式崩溃 ：GAN虽能生成高保真图像，但存在训练震荡和多样性不足的问题。
编辑任务扩展性差 ：GAN难以直接应用于需保留部分上下文的任务（如图像修复、外推），需额外设计复杂结构。

3. 两阶段生成框架的瓶颈
token化阶段信息损失 ：VQ-VAE等方法的离散编码可能丢失细节。
自回归先验建模效率低 ：第二阶段依赖自回归模型，生成速度成为瓶颈。

提出的方法

1.双向Transformer与掩码预测

训练阶段：采用掩码视觉token建模（MVTM），随机掩码部分token后通过双向注意力预测被掩码内容，学习全局上下文依赖。

推理阶段：提出迭代并行解码，从全掩码开始，每步并行预测所有token，仅保留高置信度结果，逐步细化生成。

2.掩码****调度函数（Mask Scheduling）：

提出余弦调度函数（Concave类），在解码初期掩码率高（如95%），后期快速降低，符合"从粗到细"生成逻辑。

相比线性/凸函数，余弦调度在FID和IS指标上最优。

置信度筛选机制：每步根据预测置信度动态掩码低置信度token，避免错误累积。

3.高效****性与质量提升

生成速度：仅需8--12步生成完整图像，比自回归方法加速最高64倍。

质量指标：在ImageNet 256×256上，FID降至6.18（VQGAN为15.78），IS提升至182.1。

4.多样性优势：通过CAS和Precision/Recall指标验证，生成样本覆盖更广的分布。1.

5.多任务扩展性
图像编辑任务：通过调整初始掩码区域，直接支持以下任务：
类条件编辑：替换指定区域内容并保持上下文连贯。
图像修复与外推：在Places2数据集上达到SOTA。
零任务适配：无需修改架构或额外训练，即可处理多种编辑任务。

具体方法

自回归和本文方法的生成比较

VQVAE生成图像的过程

MVTM训练流程

迭代式解码

在自回归解码中，标记是基于先前生成的输出依次生成的。由于图像标记长度（例如 256 或 1024）通常远大于语言标记长度，此过程无法并行，因而速度很慢。我们引入了一种新的解码方法，其中图像中的所有标记均可并行生成。这一点之所以可行，是因为模型具有双向自注意力机制。本文模型能够单次推断并生成整个图像。发现，由于这与训练任务存在不一致，实现起来有挑战。提出的迭代解码方法。在推理时生成图像，从一张空白画布开始，即所有标记均被遮蔽（masked out），表示为 YM(0)。对于第 t次迭代，算法运行如下：

掩码的设计

图像生成的质量显著依赖于掩码调度函数γ(·)的设计。该函数决定了解码过程中每一步应遮蔽（mask）多少比例的标记，并需满足特定数学性质以适配迭代解码流程。

函数必须满足的性质：

连续性且有界 ：γ(r) 是定义在 r ∈ [0,1] 上的连续函数，值域在 [0,1] 之间。
单调递减 ：γ(r) 随 r 增加而递减，且满足：
• γ(0) → 1（初始时大部分标记被遮蔽）
• γ(1) → 0（最后所有标记都被预测出）