(论文速读)RandAR:突破传统限制的随机顺序图像自回归生成模型

论文题目:RandAR: Decoder-only Autoregressive Visual Generation in Random Orders(随机顺序下仅解码器的自回归视觉生成)

会议:CVPR2025

摘要:我们介绍了RandAR,一种仅解码器的视觉自回归(AR)模型,能够以任意令牌顺序生成图像。与之前依赖于预定义生成顺序的纯解码器AR模型不同,RandAR消除了这种归纳偏差,解锁了纯解码器生成的新功能。我们的基本设计通过在每个要预测的图像标记之前插入"位置指令标记"来实现随机顺序,表示下一个图像标记的空间位置。RandAR在随机排列的标记序列上进行训练,这是一项比固定顺序生成更具挑战性的任务,它的性能与传统的光栅顺序相当。更重要的是,从随机指令训练的只有解码器的变压器获得了新的能力。针对AR模型的效率瓶颈,RandAR在推理时采用KV-Cache并行解码,在不牺牲生成质量的情况下享受2.5 ×加速。此外,RandAR以零样本学习的方式支持绘制,绘制和分辨率外推。我们希望RandAR能激发解码器视觉生成模型的新方向,并拓宽它们在不同场景中的应用

源码链接:https://rand-ar.github.io/


引言

在人工智能图像生成领域,autoregressive(自回归)模型一直扮演着重要角色。受到GPT等语言模型成功的启发,研究者们将"下一个token预测"的思想应用到图像生成中,诞生了VQGAN、LLaMAGen等经典模型。然而,这些模型都有一个共同的限制:必须按照预定义的顺序(通常是从左到右、从上到下的光栅顺序)生成图像。

今天要介绍的RandAR模型,彻底打破了这一传统限制,实现了真正意义上的随机顺序图像生成,为decoder-only模型开启了全新的可能性。

传统方法的局限性

单向偏置问题

传统的decoder-only图像生成模型存在一个根本性问题:单向偏置。由于必须按照固定的光栅顺序生成,模型只能利用"过去"的信息(已生成的token)来预测"未来"的token。这就像用一只眼睛看世界一样,无法充分理解2D图像中像素之间的复杂关系。

复制代码
传统光栅顺序生成:
1 → 2 → 3
↓   ↓   ↓  
4 → 5 → 6
↓   ↓   ↓
7 → 8 → 9

在这种模式下,当生成位置5的内容时,模型只能看到位置1、2、4的信息,完全无法感知位置3、6、8、9的内容。这严重限制了模型对图像全局结构的理解。

应用场景受限

由于生成顺序固定,传统模型在以下任务中表现不佳:

  • 图像修复(Inpainting):无法有效利用损坏区域周围的完整上下文信息
  • 图像外延(Outpainting):只能采用滑动窗口等折衷方案,无法保证全局一致性
  • 并行生成:必须严格按序生成,无法实现加速

RandAR的创新突破

核心设计思想

RandAR的核心创新在于引入了位置指令token(Position Instruction Token)的概念。简单来说,就是在告诉模型要预测哪个token之前,先告诉它这个token应该放在图像的哪个位置。

复制代码
传统方式:直接预测 → token_5
RandAR方式:位置指令[pos_5] → token_5

这个看似简单的改动,却带来了革命性的变化。

技术实现细节

1. 随机排列序列

RandAR将原本有序的token序列进行随机打乱:

复制代码
原始顺序:[token_1, token_2, token_3, ..., token_256]
随机顺序:[token_73, token_156, token_2, token_99, ...]

2. 位置指令插入

在每个图像token前插入对应的位置指令:

复制代码
最终序列:[pos_73, token_73, pos_156, token_156, pos_2, token_2, ...]

3. 位置编码设计

位置指令token使用共享的可学习嵌入结合2D RoPE(旋转位置编码):

复制代码
P_i = RoPE(e, h_i, w_i)

其中e是共享嵌入,(h_i, w_i)是2D坐标。

训练策略

RandAR的训练比传统方法更具挑战性。对于256×256的图像(256个token),可能的排列数量达到256! ≈ 8×10^506。虽然训练过程中只能覆盖极小部分的排列组合,但模型却能学会在任意顺序下生成高质量图像。

令人惊喜的零样本能力

RandAR最令人兴奋的地方在于,仅仅通过随机顺序训练,就自然获得了多种零样本能力:

1. 并行解码加速

传统模型必须逐个生成token,而RandAR可以在一个前向传播中同时预测多个位置的token:

复制代码
传统方式:256步 → 生成256个token
RandAR:88步 → 生成256个token(2.5×加速)

性能对比:

  • 推理延迟:从16.8秒降低到6.6秒
  • 生成质量:几乎无损失(FID从2.22微升至2.25)

2. 图像修复能力

在图像修复任务中,RandAR可以利用损坏区域周围的所有可见像素作为上下文:

复制代码
修复过程:
[可见区域tokens] + [位置指令] → [修复区域tokens]

这种全上下文的修复方式,效果远超传统的单向修复。

3. 外延绘制

RandAR支持使用完整序列注意力进行图像外延,生成更加一致的扩展区域:

传统方法 vs RandAR:

  • 传统:滑动窗口 → 局部一致性差
  • RandAR:全序列注意力 → 全局一致性好

4. 分辨率外推

最令人惊喜的是,仅在256×256分辨率上训练的RandAR,可以零样本生成512×512的高分辨率图像!

两阶段生成策略:

  1. 生成偶数坐标位置的token(建立整体布局)
  2. 填充奇数坐标位置的token(添加细节信息)

5. 双向特征提取

通过两次前向传播,RandAR可以提取具有双向上下文的特征表示:

复制代码
第一轮:获取单向特征
第二轮:整合双向信息 → 更好的特征表示

在语义对应任务中,这种双向特征的PCK指标达到31.3%,相比单向特征的22.1%有显著提升。

实验结果与性能评估

生成质量

在ImageNet 256×256基准测试中,RandAR展现出与传统方法相当的生成质量:

模型 参数量 FID↓ IS↑ 步数
光栅顺序对照模型 775M 2.16 282.71 256
RandAR-XL 775M 2.25 317.77 88

值得注意的是,RandAR在学习更困难任务的同时,仍然保持了竞争性的性能。

效率提升

并行解码带来的效率提升非常显著:

指标 传统方法 RandAR 改善
推理步数 256 88 2.9×
推理延迟 16.8s 6.6s 2.5×
KV-Cache支持 -

零样本任务效果

在各种零样本任务中,RandAR都展现出了优秀的性能:

  • 图像修复:能够生成与原图风格一致的修复内容
  • 外延绘制:扩展区域与原图的衔接自然流畅
  • 分辨率外推:512×512图像细节丰富,结构合理
  • 特征提取:双向特征在下游任务中表现更佳

技术深度分析

位置指令设计的重要性

研究团队对位置指令token的设计进行了深入的消融研究:

设计方案对比:

  1. 默认方案:共享嵌入 + 2D RoPE(FID: 2.82)
  2. 密集嵌入:每个位置独立嵌入(FID: 3.07)
  3. 融合方案:位置信息直接加到图像token上(FID: 3.37)

结果表明,默认的共享嵌入方案在性能和参数效率之间达到了最佳平衡。

并行解码的技术细节

并行解码的实现巧妙地保持了训练时的序列格式:

复制代码
# 并行解码示例(预测2个token)
输入:[P1, x1, ..., Pn-1, xn-1, Pn, Pn+1]
预测:[xn, xn+1]
重排:[P1, x1, ..., Pn-1, xn-1, Pn, xn, Pn+1, xn+1]

这种设计确保了因果掩码的正确性,同时保持了KV-Cache的兼容性。

分辨率外推的创新方法

分辨率外推采用了分层解码策略,灵感来自频域分析:

  1. 布局阶段:生成偶数坐标的token,建立图像的整体结构
  2. 细化阶段:生成奇数坐标的token,添加高频细节信息

此外,还引入了**空间上下文引导(SCG)**技术,通过维护两个序列(原始序列和随机丢弃token的序列)来增强高频细节的生成质量。

局限性与未来方向

尽管RandAR取得了显著突破,但仍存在一些局限:

当前局限

  1. 高频细节生成:在极高分辨率外推时,某些精细结构的生成仍不够完美
  2. 计算复杂度:随机顺序训练相比固定顺序更加困难
  3. 外推比例限制:目前主要验证了2×分辨率外推,更大比例的外推有待探索

未来发展方向

  1. 更好的位置编码:探索更适合随机顺序的位置表示方法
  2. 多尺度训练:在训练时就引入多分辨率数据
  3. 更高效的并行策略:进一步提升并行解码的效率
  4. 跨模态应用:将随机顺序的思想扩展到文本-图像等跨模态任务

对领域的影响与意义

理论贡献

RandAR证明了一个重要观点:预定义的生成顺序并非decoder-only模型的必要约束。这为重新思考序列建模开辟了新的道路。

实用价值

  1. 统一架构:单一模型支持生成、修复、外延等多种任务
  2. 效率提升:并行解码显著减少推理时间
  3. 灵活性增强:可根据任务需求选择合适的生成顺序

启发意义

RandAR的成功启发我们思考:在其他序列建模任务中,是否也存在类似的固化假设需要被打破?

结论

RandAR代表了decoder-only图像生成模型的一个重要里程碑。通过引入简单而优雅的位置指令机制,它成功地将随机顺序生成引入到传统的自回归框架中,不仅保持了原有的生成质量,还获得了多种强大的零样本能力。

这项工作的意义不仅在于技术创新,更在于它打破了我们对传统序列建模的固有认知。正如论文作者所希望的,RandAR为decoder-only视觉生成模型指明了新的研究方向,相信会激发更多创新性的探索。

在AI图像生成日益重要的今天,RandAR的出现为我们提供了一个更加灵活、高效、功能丰富的工具。它告诉我们,有时候打破传统约束,反而能够释放出更大的潜力。

相关推荐
Ginkgo_Lo9 分钟前
【LLM越狱】AI大模型DRA攻击解读与复现
人工智能·安全·ai·语言模型
凯子坚持 c17 分钟前
AI 赋能云端运维:基于 MCP 协议深度集成 Codebuddy CLI 与腾讯云 Lighthouse 的实战全解
运维·人工智能·腾讯云·腾讯轻量云ai创想家
胖达不服输17 分钟前
「日拱一码」087 机器学习——SPARROW
人工智能·python·机器学习·sparrow
Uzuki36 分钟前
目标检测 | 基于Weiler–Atherton算法的IoU求解
目标检测·机器学习·自动驾驶·图形学
minhuan43 分钟前
构建AI智能体:三十一、AI医疗场景实践:医学知识精准问答+临床智能辅助决策CDSS
人工智能·医学知识问答·临床辅助决策·cdss·医学模型
大千AI助手1 小时前
线性预热机制(Linear Warmup):深度学习训练稳定性的关键策略
人工智能·深度学习·大模型·模型训练·学习率·warmup·线性预热机制
七牛云行业应用1 小时前
企业级AI大模型选型指南:从评估部署到安全实践
大数据·人工智能·安全
진영_1 小时前
深度学习打卡第N6周:中文文本分类-Pytorch实现
人工智能·深度学习
龙亘川1 小时前
智慧城市SaaS平台之智慧城管十大核心功能(六):业务指导系统
人工智能·智慧城市
龙亘川1 小时前
智慧城市SaaS平台之智慧城管十大核心功能(七):后台支撑系统
服务器·人工智能·系统架构·智慧城市·运维开发·智慧城市saas平台