北大&字节提出VAR新范式,GPT超越扩散、视觉生成Scaling Law

前言

来自北京大学和字节跳动的研究团队,提出了一种名为"Visual AutoRegressive (VAR) Modeling"的全新视觉生成范式。VAR 重新定义了图像的自回归学习过程,从而使得GPT风格的自回归模型首次超越扩散模型,在图像生成质量、速度和可扩展性等多方面都取得了突破性进展。

VAR核心思想:模仿人类视觉认知

VAR的核心思想源于人类感知和创造图像的逻辑顺序。相比计算机常用的自上而下、逐行扫描的方式,人类更倾向于先把握全局结构,然后逐步深入细节。

VAR正是借鉴了这种由粗到细的多尺度思路,定义图像的自回归顺序为"下一个更高分辨率的token图谱预测",而非传统的"下一个token预测"。具体来说,VAR首先使用多尺度量化自编码器(VQVAE)将图像编码为不同分辨率的离散token图谱,然后训练一个自回归Transformer,从最低分辨率的1x1图谱开始,逐步预测出更高分辨率的token图谱。

这种设计不仅更符合人类直觉,而且在计算效率上也有很大优势:在每个尺度内,token是并行生成的,而非传统自回归模型的逐个顺序生成,从而大幅提升了推理速度。

VAR性能超越Diffusion

通过在ImageNet 256x256和512x512数据集上的实验,VAR在多个维度都展现出了卓越的表现:

  • 在图像质量指标上,VAR取得了FID 1.80、IS 356.4的SOTA水平,大幅超越了之前自回归模型的表现。
  • 在推理速度上,VAR仅需10步采样就能生成图像,是传统自回归模型快20倍,接近GAN模型的效率。
  • 在可扩展性方面,VAR通过增大模型规模到2B/3B参数,性能持续提升,与大语言模型(LLM)的Scaling Law相似,而Diffusion Transformer等模型在更大规模下却出现饱和。

这些结果充分证明,VAR不仅在性能上超越了Diffusion模型,在计算效率和可扩展性上也更加优秀,开启了自回归视觉生成模型的新纪元。

发现视觉Scaling Law

与大语言模型(LLM)类似,VAR在训练过程中也呈现出清晰的幂律Scaling Law特征:

  • 模型参数量N增大,测试集损失L和错误率Err呈现幂律下降,相关系数接近-0.998,证明了强大的可预测性。
  • 在计算开销Cmin增大时,测试集损失L和错误率Err也遵循幂律降低,相关系数达-0.99,表明VAR拥有出色的计算效率。

这些Scaling Law的发现,不仅验证了VAR的可扩展性,也为未来基于自回归范式的视觉生成模型提供了有力支撑,可借助小模型预测大模型性能,大幅降低开发成本。

零样本泛化能力

VAR还展现出了在一些下游任务上的零样本泛化能力,包括图像补全、外插和类条件编辑等。这表明VAR具有从自身任务迁移到新任务的潜力,与LLM的零样本学习能力相似。

展望未来

总的来说,VAR为视觉自回归建模提供了一种全新的、更符合人类认知的范式,不仅在性能、速度和可扩展性上超越Diffusion,还首次在视觉领域观察到了与LLM相似的Scaling Law和零样本泛化能力。

研究团队开放了VAR的代码、模型和训练数据,希望能够推动自回归在视觉生成领域的进一步发展,为统一的多模态AI算法奠定基础。后续的研究方向包括将VAR应用于视频生成,以及与LLM的进一步融合等。

模型下载

Huggingface模型下载

huggingface.co/FoundationV...

AI快站模型免费加速下载

aifasthub.com/models/Foun...

相关推荐
秃头佛爷7 分钟前
Python学习大纲总结及注意事项
开发语言·python·学习
昨日之日20061 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_1 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover1 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川2 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
API快乐传递者2 小时前
淘宝反爬虫机制的主要手段有哪些?
爬虫·python
阡之尘埃4 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
ClkLog-开源埋点用户分析6 小时前
ClkLog企业版(CDP)预售开启,更有鸿蒙SDK前来助力
华为·开源·开源软件·harmonyos
孙同学要努力6 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20216 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉