北大&字节联合发布视觉自动回归建模(VAR):通过下一代预测生成可扩展的图像

北大和字节发布一个新的图像生成框架VAR。首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。

同时展现出了与大语言模型观察到的类似Scaling laws的规律。在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。

相关链接

项目地址:https://github.com/FoundationVision/VAR

Demo地址:https://var.vision

模型下载地址:https://huggingface.co/FoundationVision/var

VAR简介

视觉自回归建模(VAR)是一种新的视觉生成范式,它将图像的自回归学习重新定义为从粗到细的"下一个尺度预测"或"下一个分辨率预测",与标准光栅扫描"下一个令牌"不同预言"。这种简单、直观的方法允许自回归(AR)转换器快速学习视觉分布并很好地概括。

自回归视觉生成的新范式✨:

视觉自回归建模(VAR)将图像的自回归学习重新定义为从粗到细的"下一个尺度预测"或"下一个分辨率预测",与标准光栅扫描"下一个标记预测"不同。

GPT式自回归模型首次超越扩散模型:

该图研究了不同模型在ImageNet-256条件生成基准上的缩放行为。半径表示模型尺寸。轴采用对数刻度。 VAR首次使自回归模型在图像生成方面在多个维度上超越了扩散变换器(DiT):图像质量、推理速度、数据效率和可扩展性。

发现VAR Transformer中的幂律缩放定律

零样本泛化能力

提供模型下载地址

实验

在 ImageNet-256×256基准上,VAR通过将Fréchet起始距离(FID)从5.20提高到1.80、起始分数(IS)从280.3提高到356.4,显着提高了其 AR 基线,推理速度提高了24倍。VAR使得GPT式自回归模型在FID分数、IS分数、推理速度和可扩展性方面首先超越了扩散变压器(DiT)。

Demo生图效果

相关推荐
程序员的小马甲几秒前
如何编写AI提示词
人工智能·程序员·产品经理
算家计算几秒前
4 位量化 + FP8 混合精度:ERNIE-4.5-0.3B-Paddle本地部署,重新定义端侧推理效率
人工智能·开源
晓13133 分钟前
OpenCV篇——项目(二)OCR文档扫描
人工智能·python·opencv·pycharm·ocr
小白狮ww6 分钟前
VASP 教程:VASP 机器学习力场微调
人工智能·深度学习·机器学习
AIGC包拥它6 分钟前
提示技术系列——链式提示
人工智能·python·langchain·prompt
jndingxin14 分钟前
OpenCV CUDA模块设备层-----在GPU 上高效地执行两个 uint 类型值的最大值比较函数vmax2()
人工智能·opencv·计算机视觉
阿水实证通20 分钟前
Stata如何做机器学习?——SHAP解释框架下的足球运动员价值驱动因素识别:基于H2O集成学习模型
人工智能·机器学习·集成学习
新智元23 分钟前
图灵奖大佬向 97 年小孩哥汇报?小扎 1 亿年薪买新贵,老将痛诉熬夜捡 GPU!
人工智能·openai
真智AI25 分钟前
AI智能体时代来临:数据分析的变革与自动化之路
人工智能·数据分析·自动化
非ban必选27 分钟前
spring-ai-alibaba官方 Playground 示例
java·人工智能·spring