北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

网友：通向 Sora 的更便宜的潜在途径
鱼羊发自凹非寺

量子位 | 公众号 QbitAI

北大和字节联手搞了个大的：

提出图像生成新范式 ，从预测下一个 token 变成预测下一级分辨率，效果超越 Sora 核心组件 Diffusion Transformer（DiT）。

并且代码开源，短短几天已经揽下 1.3k 标星，登上 GitHub 趋势榜。

具体是个什么效果？

实验数据上，这个名为 VAR （Visual Autoregressive Modeling）的新方法不仅图像生成质量超过 DiT 等传统 SOTA，推理速度也提高了 20 + 倍。

这也是自回归模型首次在图像生成领域击败 DiT。

直观感受上，话不多说，直接看图：

值得一提的是，研究人员还在 VAR 上，观察到了大语言模型同款的 Scaling Laws 和零样本任务泛化。

论文代码上线，已经引发不少专业讨论。

有网友表示有被惊到，顿时觉得其他扩散架构的论文有点索然无味。

还有人认为，这是一种通向 Sora 的更便宜的潜在途径，计算成本可降低一个乃至多个数量级。

简单来说，VAR 的核心创新，就是用预测下一级分辨率 ，替代了预测下一个 token 的传统自回归方法。

VAR 的训练分为两个阶段。

第一阶段，VAR 引入了多尺度离散表示，使用 VQ-VAE 将连续图像编码为一系列离散的 token map，每个 token map 有不同的分辨率。

第二阶段，主要是对 VAR Transformer 的训练，通过预测更高分辨率的图像，来进一步优化模型。具体过程是这样的：

从最低分辨率（比如 1×1）的 token map 开始，预测下一级分辨率（比如 4×4）的完整 token map，并以此类推，直到生成最高分辨率的 token map（比如 256×256）。在预测每个尺度的 token map 时，基于 Transformer，模型会考虑之前所有步骤生成的映射信息。

在第二阶段中，之前训练好的 VQ-VAE 模型发挥了重要作用：为 VAR 提供了 "参考答案"。这能帮助 VAR 更准确地学习和预测图像。