（论文速读）RandAR：突破传统限制的随机顺序图像自回归生成模型

论文题目：RandAR: Decoder-only Autoregressive Visual Generation in Random Orders（随机顺序下仅解码器的自回归视觉生成）

会议：CVPR2025

摘要：我们介绍了RandAR，一种仅解码器的视觉自回归(AR)模型，能够以任意令牌顺序生成图像。与之前依赖于预定义生成顺序的纯解码器AR模型不同，RandAR消除了这种归纳偏差，解锁了纯解码器生成的新功能。我们的基本设计通过在每个要预测的图像标记之前插入"位置指令标记"来实现随机顺序，表示下一个图像标记的空间位置。RandAR在随机排列的标记序列上进行训练，这是一项比固定顺序生成更具挑战性的任务，它的性能与传统的光栅顺序相当。更重要的是，从随机指令训练的只有解码器的变压器获得了新的能力。针对AR模型的效率瓶颈，RandAR在推理时采用KV-Cache并行解码，在不牺牲生成质量的情况下享受2.5 ×加速。此外，RandAR以零样本学习的方式支持绘制，绘制和分辨率外推。我们希望RandAR能激发解码器视觉生成模型的新方向，并拓宽它们在不同场景中的应用

源码链接：https://rand-ar.github.io/

引言

在人工智能图像生成领域，autoregressive（自回归）模型一直扮演着重要角色。受到GPT等语言模型成功的启发，研究者们将"下一个token预测"的思想应用到图像生成中，诞生了VQGAN、LLaMAGen等经典模型。然而，这些模型都有一个共同的限制：必须按照预定义的顺序（通常是从左到右、从上到下的光栅顺序）生成图像。

今天要介绍的RandAR模型，彻底打破了这一传统限制，实现了真正意义上的随机顺序图像生成，为decoder-only模型开启了全新的可能性。

传统方法的局限性

单向偏置问题

传统的decoder-only图像生成模型存在一个根本性问题：单向偏置。由于必须按照固定的光栅顺序生成，模型只能利用"过去"的信息（已生成的token）来预测"未来"的token。这就像用一只眼睛看世界一样，无法充分理解2D图像中像素之间的复杂关系。

复制代码

传统光栅顺序生成：
1 → 2 → 3
↓   ↓   ↓  
4 → 5 → 6
↓   ↓   ↓
7 → 8 → 9

在这种模式下，当生成位置5的内容时，模型只能看到位置1、2、4的信息，完全无法感知位置3、6、8、9的内容。这严重限制了模型对图像全局结构的理解。

应用场景受限

由于生成顺序固定，传统模型在以下任务中表现不佳：

图像修复（Inpainting）：无法有效利用损坏区域周围的完整上下文信息
图像外延（Outpainting）：只能采用滑动窗口等折衷方案，无法保证全局一致性
并行生成：必须严格按序生成，无法实现加速

RandAR的创新突破

核心设计思想

RandAR的核心创新在于引入了位置指令token（Position Instruction Token）的概念。简单来说，就是在告诉模型要预测哪个token之前，先告诉它这个token应该放在图像的哪个位置。

复制代码

传统方式：直接预测 → token_5
RandAR方式：位置指令[pos_5] → token_5

这个看似简单的改动，却带来了革命性的变化。

技术实现细节

1. 随机排列序列

RandAR将原本有序的token序列进行随机打乱：

复制代码

原始顺序：[token_1, token_2, token_3, ..., token_256]
随机顺序：[token_73, token_156, token_2, token_99, ...]

2. 位置指令插入

在每个图像token前插入对应的位置指令：

复制代码

最终序列：[pos_73, token_73, pos_156, token_156, pos_2, token_2, ...]

3. 位置编码设计

位置指令token使用共享的可学习嵌入结合2D RoPE（旋转位置编码）：

复制代码

P_i = RoPE(e, h_i, w_i)

其中e是共享嵌入，(h_i, w_i)是2D坐标。

训练策略

RandAR的训练比传统方法更具挑战性。对于256×256的图像（256个token），可能的排列数量达到256! ≈ 8×10^506。虽然训练过程中只能覆盖极小部分的排列组合，但模型却能学会在任意顺序下生成高质量图像。

令人惊喜的零样本能力

RandAR最令人兴奋的地方在于，仅仅通过随机顺序训练，就自然获得了多种零样本能力：

1. 并行解码加速

传统模型必须逐个生成token，而RandAR可以在一个前向传播中同时预测多个位置的token：

复制代码

传统方式：256步 → 生成256个token
RandAR：88步 → 生成256个token（2.5×加速）

性能对比：

推理延迟：从16.8秒降低到6.6秒
生成质量：几乎无损失（FID从2.22微升至2.25）

2. 图像修复能力

在图像修复任务中，RandAR可以利用损坏区域周围的所有可见像素作为上下文：

复制代码

修复过程：
[可见区域tokens] + [位置指令] → [修复区域tokens]

这种全上下文的修复方式，效果远超传统的单向修复。

3. 外延绘制

RandAR支持使用完整序列注意力进行图像外延，生成更加一致的扩展区域：

传统方法 vs RandAR：

传统：滑动窗口 → 局部一致性差
RandAR：全序列注意力 → 全局一致性好

4. 分辨率外推

最令人惊喜的是，仅在256×256分辨率上训练的RandAR，可以零样本生成512×512的高分辨率图像！

两阶段生成策略：

生成偶数坐标位置的token（建立整体布局）
填充奇数坐标位置的token（添加细节信息）

5. 双向特征提取

通过两次前向传播，RandAR可以提取具有双向上下文的特征表示：

复制代码

第一轮：获取单向特征
第二轮：整合双向信息 → 更好的特征表示

在语义对应任务中，这种双向特征的PCK指标达到31.3%，相比单向特征的22.1%有显著提升。

实验结果与性能评估

生成质量

在ImageNet 256×256基准测试中，RandAR展现出与传统方法相当的生成质量：

模型	参数量	FID↓	IS↑	步数
光栅顺序对照模型	775M	2.16	282.71	256
RandAR-XL	775M	2.25	317.77	88

值得注意的是，RandAR在学习更困难任务的同时，仍然保持了竞争性的性能。

效率提升

并行解码带来的效率提升非常显著：

指标	传统方法	RandAR	改善
推理步数	256	88	2.9×
推理延迟	16.8s	6.6s	2.5×
KV-Cache支持	✓	✓	-

零样本任务效果

在各种零样本任务中，RandAR都展现出了优秀的性能：

图像修复：能够生成与原图风格一致的修复内容
外延绘制：扩展区域与原图的衔接自然流畅
分辨率外推：512×512图像细节丰富，结构合理
特征提取：双向特征在下游任务中表现更佳

技术深度分析

位置指令设计的重要性

研究团队对位置指令token的设计进行了深入的消融研究：

设计方案对比：

默认方案：共享嵌入 + 2D RoPE（FID: 2.82）
密集嵌入：每个位置独立嵌入（FID: 3.07）
融合方案：位置信息直接加到图像token上（FID: 3.37）

结果表明，默认的共享嵌入方案在性能和参数效率之间达到了最佳平衡。

并行解码的技术细节

并行解码的实现巧妙地保持了训练时的序列格式：

复制代码

# 并行解码示例（预测2个token）
输入：[P1, x1, ..., Pn-1, xn-1, Pn, Pn+1]
预测：[xn, xn+1]
重排：[P1, x1, ..., Pn-1, xn-1, Pn, xn, Pn+1, xn+1]

这种设计确保了因果掩码的正确性，同时保持了KV-Cache的兼容性。

分辨率外推的创新方法

分辨率外推采用了分层解码策略，灵感来自频域分析：

布局阶段：生成偶数坐标的token，建立图像的整体结构
细化阶段：生成奇数坐标的token，添加高频细节信息

此外，还引入了**空间上下文引导（SCG）**技术，通过维护两个序列（原始序列和随机丢弃token的序列）来增强高频细节的生成质量。

局限性与未来方向

尽管RandAR取得了显著突破，但仍存在一些局限：

当前局限

高频细节生成：在极高分辨率外推时，某些精细结构的生成仍不够完美
计算复杂度：随机顺序训练相比固定顺序更加困难
外推比例限制：目前主要验证了2×分辨率外推，更大比例的外推有待探索

未来发展方向

更好的位置编码：探索更适合随机顺序的位置表示方法
多尺度训练：在训练时就引入多分辨率数据
更高效的并行策略：进一步提升并行解码的效率
跨模态应用：将随机顺序的思想扩展到文本-图像等跨模态任务

对领域的影响与意义

理论贡献

RandAR证明了一个重要观点：预定义的生成顺序并非decoder-only模型的必要约束。这为重新思考序列建模开辟了新的道路。

实用价值

统一架构：单一模型支持生成、修复、外延等多种任务
效率提升：并行解码显著减少推理时间
灵活性增强：可根据任务需求选择合适的生成顺序

启发意义

RandAR的成功启发我们思考：在其他序列建模任务中，是否也存在类似的固化假设需要被打破？

结论

RandAR代表了decoder-only图像生成模型的一个重要里程碑。通过引入简单而优雅的位置指令机制，它成功地将随机顺序生成引入到传统的自回归框架中，不仅保持了原有的生成质量，还获得了多种强大的零样本能力。

这项工作的意义不仅在于技术创新，更在于它打破了我们对传统序列建模的固有认知。正如论文作者所希望的，RandAR为decoder-only视觉生成模型指明了新的研究方向，相信会激发更多创新性的探索。

在AI图像生成日益重要的今天，RandAR的出现为我们提供了一个更加灵活、高效、功能丰富的工具。它告诉我们，有时候打破传统约束，反而能够释放出更大的潜力。