MaskGIT掩码生成图算法详解(MaskGIT: Masked Generative Image Transformer)

视频讲解1:Bilibili视频讲解

视频讲解2:https://www.douyin.com/video/7588784970366340398

论文下载:https://arxiv.org/abs/2202.04200

代码下载:https://github.com/dome272/MaskGIT-pytorch

论文GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis详解(代码详解)

论文Generative Adversarial Text to Image Synthesis详解

论文DF-GAN: ASimple and Effective Baseline for Text-to-Image Synthesis详解

论文StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks详解

论文StackGAN++详解

论文HDGAN(Photographic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network)详解

视觉语义相似性评估(文本和图像之间的相似性-HDGAN)

论文AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks详解

文本和图像编码器(AttnGAN)详解

文本对图像的描述(MirrorGAN)

论文MirrorGAN: Learning Text-to-image Generation by Redescription详解

基于GAN的文生图(DM-GAN:Dynamic MemoryGenerative Adversarial Networks for Text-to-Image Synthesis)

基于监督对比学习的统一图像生成框架(A Framework For Image Synthesis Using Supervised Contrastive Learning)

基于GAN的文生图算法详解(Text to Image Generation with Semantic-Spatial Aware GAN)

基于GAN的文生图算法详解ControlGAN(Controllable Text-to-Image Generation)

StyleGAN-T文生图算法详解(Unlocking the Power of GANs forFast Large-Scale Text-to-Image Synthe)

论文VQ-GAN(Taming Transformers for High-Resolution Image Synthesis)高分辨图像生成讲解(PyTorch)

论文Neural Discrete Representation Learning(VQ-VAE)详解(PyTorch)

论文VQ-VAE-2(Generating Diverse High-Fidelity Images with VQ-VAE-2)详解(PyTorch)

本文提出了一种基于双向Transformer和掩码预测的高效图像生成方法。通过掩码视觉token建模(MVTM)训练双向注意力模型,并采用迭代并行解码策略,解决了传统自回归Transformer生成效率低的问题。创新性地设计了余弦掩码调度函数和置信度筛选机制,仅需8-12步即可生成高质量图像,比自回归方法加速64倍。实验表明,该方法在ImageNet 256×256上FID降至6.18,IS提升至182.1。同时展示了该方法在图像编辑任务中的扩展性,无需修改架构即可实现类条件编辑、图像修复等任务。

目录

现有方法局限性

提出的方法

具体方法

自回归和本文方法的生成比较

VQVAE生成图像的过程

MVTM训练流程

迭代式解码

掩码的设计

实验结果

综合比较

消融实验

可视化结果


注:图像外推(Image Extrapolation) 是一种图像生成技术,旨在从已知的图像区域推断和生成未知的外部区域 ,扩展图像的边界和内容。与图像补全(inpainting)通常处理内部缺失不同,外推主要关注向外扩展

现有方法局限性

**1.**自回归Transformer的序列生成效率低

问题:传统生成式Transformer(如VQGAN、ImageGPT)将图像视为一维序列,按光栅扫描顺序(从左到右、逐行)逐token生成。

局限性
生成速度慢 :序列长度随图像分辨率平方增长(如256×256图像需256步生成),GPU生成单张图像耗时可达30秒。
非并行化 :每一步依赖前一步结果,无法利用硬件并行加速。
方向性限制 :仅依赖上文信息,无法利用双向上下文,导致细节生成不协调。

2**.**GAN模型的固有缺陷
训练不稳定与模式崩溃 :GAN虽能生成高保真图像,但存在训练震荡和多样性不足的问题。
编辑任务扩展性差 :GAN难以直接应用于需保留部分上下文的任务(如图像修复、外推),需额外设计复杂结构。

3. 两阶段生成框架的瓶颈
token化阶段信息损失 :VQ-VAE等方法的离散编码可能丢失细节。
自回归先验建模效率低 :第二阶段依赖自回归模型,生成速度成为瓶颈。

提出的方法

1.双向Transformer与掩码预测

训练阶段:采用掩码视觉token建模(MVTM),随机掩码部分token后通过双向注意力预测被掩码内容,学习全局上下文依赖。

推理阶段:提出迭代并行解码,从全掩码开始,每步并行预测所有token,仅保留高置信度结果,逐步细化生成。

2.掩码****调度函数(Mask Scheduling)

提出余弦调度函数(Concave类),在解码初期掩码率高(如95%),后期快速降低,符合"从粗到细"生成逻辑。

相比线性/凸函数,余弦调度在FID和IS指标上最优。

置信度筛选机制:每步根据预测置信度动态掩码低置信度token,避免错误累积。

3.高效****性与质量提升

生成速度:仅需8--12步生成完整图像,比自回归方法加速最高64倍

质量指标:在ImageNet 256×256上,FID降至6.18(VQGAN为15.78),IS提升至182.1。

4.多样性优势:通过CAS和Precision/Recall指标验证,生成样本覆盖更广的分布。1.

5.多任务扩展性
图像编辑任务:通过调整初始掩码区域,直接支持以下任务:
类条件编辑:替换指定区域内容并保持上下文连贯。
图像修复与外推:在Places2数据集上达到SOTA。
零任务适配:无需修改架构或额外训练,即可处理多种编辑任务。

具体方法

自回归和本文方法的生成比较

VQVAE生成图像的过程

MVTM训练流程

迭代式解码

在自回归解码中,标记是基于先前生成的输出依次生成的。由于图像标记长度(例如 256 或 1024)通常远大于语言标记长度,此过程无法并行,因而速度很慢。我们引入了一种新的解码方法,其中图像中的所有标记均可并行生成。这一点之所以可行,是因为模型具有双向自注意力机制。 本文模型能够单次推断并生成整个图像。发现,由于这与训练任务存在不一致,实现起来有挑战。提出的迭代解码方法。在推理时生成图像,从一张空白画布开始,即所有标记均被遮蔽(masked out),表示为 YM(0)。对于第 t次迭代,算法运行如下:

掩码的设计

图像生成的质量显著依赖于掩码调度函数γ(·)的设计。该函数决定了解码过程中每一步应遮蔽(mask)多少比例的标记,并需满足特定数学性质以适配迭代解码流程。

函数必须满足的性质:

  1. 连续性且有界 :γ(r) 是定义在 r ∈ [0,1] 上的连续函数,值域在 [0,1] 之间。
  2. 单调递减 :γ(r) 随 r 增加而递减,且满足:
    • γ(0) → 1(初始时大部分标记被遮蔽)
    • γ(1) → 0(最后所有标记都被预测出)

实验结果

综合比较

消融实验

可视化结果

相关推荐
致Great2 小时前
大模型对齐核心技术:从第一性原理完整推导 PPO 算法!
人工智能·算法·大模型·agent·智能体
Darken032 小时前
基于STM32---编码器测速(利用GPIO模拟脉冲信号)
人工智能·stm32·串口助手·gpio模拟编码器
Mintopia2 小时前
🪄 生成式应用的 **前端 orchestration 层(编排层)指南**
人工智能·llm·aigc
雍凉明月夜2 小时前
深度学习之常用归一化(Normalization)
人工智能·深度学习·计算机视觉
沃达德软件2 小时前
视频标注技术全解析
人工智能·目标检测·计算机视觉·视觉检测·音视频·实时音视频·视频编解码
Buxxxxxx2 小时前
DAY 44 简单CNN
人工智能·神经网络·cnn
GEO AI搜索优化助手2 小时前
从传统SEO到生成式AI搜索优化的战略转型
人工智能·搜索引擎·生成式引擎优化·ai优化·geo搜索优化
颜颜yan_2 小时前
从 0 到 1 搭建一个「塔罗感」AI 智能体 —— 微光运势实践记录
人工智能·ai·智能体·modelengine
灰灰勇闯IT2 小时前
鸿蒙 ArkUI 声明式 UI 核心:状态管理(@State/@Prop/@Link)实战解析
人工智能·计算机视觉·harmonyos