北大&字节提出VAR新范式，GPT超越扩散、视觉生成Scaling Law

前言

来自北京大学和字节跳动的研究团队，提出了一种名为"Visual AutoRegressive (VAR) Modeling"的全新视觉生成范式。VAR 重新定义了图像的自回归学习过程，从而使得GPT风格的自回归模型首次超越扩散模型，在图像生成质量、速度和可扩展性等多方面都取得了突破性进展。

Huggingface模型下载： huggingface.co/FoundationV...
AI快站模型免费加速下载：aifasthub.com/models/Foun...

VAR核心思想：模仿人类视觉认知

VAR的核心思想源于人类感知和创造图像的逻辑顺序。相比计算机常用的自上而下、逐行扫描的方式，人类更倾向于先把握全局结构，然后逐步深入细节。

VAR正是借鉴了这种由粗到细的多尺度思路，定义图像的自回归顺序为"下一个更高分辨率的token图谱预测"，而非传统的"下一个token预测"。具体来说，VAR首先使用多尺度量化自编码器(VQVAE)将图像编码为不同分辨率的离散token图谱，然后训练一个自回归Transformer，从最低分辨率的1x1图谱开始，逐步预测出更高分辨率的token图谱。

这种设计不仅更符合人类直觉，而且在计算效率上也有很大优势:在每个尺度内，token是并行生成的，而非传统自回归模型的逐个顺序生成，从而大幅提升了推理速度。

VAR性能超越Diffusion

通过在ImageNet 256x256和512x512数据集上的实验，VAR在多个维度都展现出了卓越的表现:

在图像质量指标上，VAR取得了FID 1.80、IS 356.4的SOTA水平，大幅超越了之前自回归模型的表现。
在推理速度上，VAR仅需10步采样就能生成图像，是传统自回归模型快20倍，接近GAN模型的效率。
在可扩展性方面，VAR通过增大模型规模到2B/3B参数，性能持续提升，与大语言模型(LLM)的Scaling Law相似，而Diffusion Transformer等模型在更大规模下却出现饱和。

这些结果充分证明，VAR不仅在性能上超越了Diffusion模型，在计算效率和可扩展性上也更加优秀，开启了自回归视觉生成模型的新纪元。

发现视觉Scaling Law

与大语言模型(LLM)类似，VAR在训练过程中也呈现出清晰的幂律Scaling Law特征:

模型参数量N增大，测试集损失L和错误率Err呈现幂律下降，相关系数接近-0.998，证明了强大的可预测性。
在计算开销Cmin增大时，测试集损失L和错误率Err也遵循幂律降低，相关系数达-0.99，表明VAR拥有出色的计算效率。

这些Scaling Law的发现，不仅验证了VAR的可扩展性，也为未来基于自回归范式的视觉生成模型提供了有力支撑，可借助小模型预测大模型性能，大幅降低开发成本。

零样本泛化能力

VAR还展现出了在一些下游任务上的零样本泛化能力，包括图像补全、外插和类条件编辑等。这表明VAR具有从自身任务迁移到新任务的潜力，与LLM的零样本学习能力相似。

展望未来

总的来说，VAR为视觉自回归建模提供了一种全新的、更符合人类认知的范式，不仅在性能、速度和可扩展性上超越Diffusion，还首次在视觉领域观察到了与LLM相似的Scaling Law和零样本泛化能力。

研究团队开放了VAR的代码、模型和训练数据，希望能够推动自回归在视觉生成领域的进一步发展，为统一的多模态AI算法奠定基础。后续的研究方向包括将VAR应用于视频生成，以及与LLM的进一步融合等。

模型下载

Huggingface模型下载

huggingface.co/FoundationV...

AI快站模型免费加速下载

aifasthub.com/models/Foun...