ViT-5：面向2020年代中期的视觉Transformer

作者 : Feng Wang, Sucheng Ren, Tiezheng Zhang, Predrag Neskovic, Anand Bhattad, Cihang Xie, Alan Yuille

摘要

本工作通过对过去五年架构进步的利用，系统地研究了如何现代化视觉Transformer（ViT）骨干网络。在保留经典的注意力-前馈神经网络（Attention-FFN）结构的同时，我们进行了组件级的优化，涉及归一化、激活函数、位置编码、门控机制和可学习令牌。这些更新构成了新一代视觉Transformer，我们称之为 ViT-5。大量实验表明，ViT-5在理解和生成基准测试中 consistently 优于最先进的普通视觉Transformer。在ImageNet-1k分类任务上，ViT-5-Base在相当的计算量下达到了84.2%的top-1准确率，超过了DeiT-III-Base的83.8%。ViT-5也作为生成建模的更强骨干：当嵌入到SiT扩散框架中时，它实现了1.84的FID，而普通ViT骨干为2.06。除了主要指标外，ViT-5还表现出改进的表示学习和有利的空间推理行为，并能可靠地跨任务迁移。通过与当代基础模型实践对齐的设计，ViT-5为2020年代中期的视觉骨干提供了比普通ViT更简单的即插即用升级。代码地址：https://github.com/wangf3014/ViT-5。

1. 引言

自2020年底推出以来，视觉Transformer（ViT）极大地重塑了视觉编码范式。其与语言Transformer在架构上的紧密对齐，催生了广泛用于多模态理解和生成的视觉-语言系统。在过去大约五年中，语言模型经历了一系列超越原始Transformer设计的系统性改进。这些包括采用更先进的激活函数和归一化层，从绝对位置编码过渡到相对位置编码，以及改进的注意力归一化和门控机制。总体而言，这些结构演变导致了表示能力和训练稳定性的显著提升，并成为现代基础模型快速进步的主要驱动力。

然而，与语言模型架构的快速持续改进相比，ViT的核心设计自诞生以来基本保持不变。例如，最先进的普通ViT骨干DeiT-III仅引入了称为LayerScale的最小修改，而其他方面保留了原始ViT架构。同样，最近的大规模视觉-语言模型（如SigLIP-2和Qwen3-VL）继续依赖本质上相同的普通ViT设计进行视觉编码。这种架构演变的相对停滞提出了一个重要问题：ViT的表示潜力是否仍未得到充分优化？鉴于语言模型在结构改进方面取得的巨大收益，一个自然的假设是：这些涵盖归一化、激活函数、位置编码和注意力机制的进步，是否可以系统地转移到视觉模型中，以解锁进一步的性能和效率提升。

在本工作中，我们对优化ViT的架构设计进行了系统研究。我们的调查围绕原始的普通ViT公式展开，刻意保留其基本的Attention-FFN骨干，同时专注于识别各个架构组件的最有效变体。我们的目标不是提出激进的重新设计，而是理解如何以原则性和模块化的方式将现代化设计选择纳入ViT。我们明确分析并实证验证了自ViT引入以来出现的结构改进的影响，例如LayerScale、旋转位置嵌入（RoPE）、QK归一化和Register令牌，其中许多已成为视觉或语言Transformer的标准。通过大量实验，我们得出了两个关键观察结果。首先，当前的ViT架构仍未得到充分优化，细化其核心组件可以在不同任务中 consistently 产生显著的性能增益。其次，现有的架构改进并非严格正交：简单地组合所有现代组件并不一定能带来最佳性能，有效的现代化需要精心设计。

受这些发现的启发，我们介绍了一种全面细化原始设计的下一代视觉Transformer架构。我们将这个新模型命名为 ViT-5，表示 Incorporating 了过去五年的主要架构演变。图1展示了ViT-5的架构概述。详细来说，ViT-5引入了一组有助于稳定ViT的组件，如LayerScale、RMSNorm和QK-Norm，以及增强空间推理的模块，如RoPE和register令牌，同时刻意避免了SwiGLU激活，尽管它们在现代大语言模型（LLM）中很流行，但在视觉模型中可能导致过度门控（over-gating）问题（定义见第3.3节）。我们在一系列视觉任务上的实验证明了ViT-5强大的表示能力和良好的泛化性。在标准的ImageNet-1k分类任务上，基础规模的ViT-5达到了84.2%的top-1准确率，优于之前的最先进普通ViT基线DeiT-III（83.8%）。对于图像生成，基于ViT-5构建的扩散模型实现了1.84的FID，显著优于SiT基线的2.06，且计算成本几乎相同。此外，密集预测任务的结果以及定量评估进一步突显了ViT-5在空间建模和表示学习方面的优势。

本研究提高了ViT骨干的表示能力，缩小了视觉模型与现代语言模型之间的架构差距。我们希望ViT-5能促进更高效的多模态系统构建，并启发开发能够无缝跨模态泛化的统一Transformer架构。

2. 相关工作

现代视觉骨干。视觉Transformer的引入标志着视觉表示学习从卷积骨干向基于Transformer的架构的转变，提供了视觉预训练、多模态建模和图像生成方面的广泛进步。继ViT架构之后，DeiT系列引入了更高效的训练策略，使得普通视觉Transformer在相当的计算预算下能够匹配当代CNN骨干（如ConvNeXt）的性能。除了普通ViT外，大量工作探索了分层视觉Transformer和混合ViT-CNN架构，它们结合了更强的归纳偏置，通常在中等规模的视觉识别基准上取得优越性能。本工作不旨在最大化特定基准（如ImageNet或COCO）上的绝对性能。相反，我们专注于普通视觉Transformer的组件级架构优化，目标是保留其在不同模型规模和多样视觉任务中的强大泛化性和可扩展性。

Transformer的架构进步。Transformer架构经历了一系列元素级的改进，主要由大型语言模型的快速演进驱动。例如，早期的LLaMA模型引入了旋转位置嵌入（RoPE）和RMS归一化，并用基于SwiGLU的前馈网络替换了标准MLP。最近，Gemma3进一步在自注意力中引入了对查询和键的显式归一化，而Qwen3移除了QKV投影中的偏置项以提高训练稳定性和效率。类似的趋势也出现在视觉模型中。CaiT引入了LayerScale以稳定深度视觉Transformer的优化，后续工作表明结合register令牌可以有效缓解Transformer中的激活伪影。重要的是，这些改进都围绕原始Transformer公式，保留了经典的注意力-FFN推理结构，而不改变整体模型拓扑。如何有效利用这类组件级架构改进构成了我们研究的主要焦点。

3. 模型

3.1. 激活缩放 (Activation Scaling)

在ViT的早期改进中，观察到在每个块的输出上引入可学习的缩放因子可以显著提高深度模型的训练稳定性和性能。形式上，给定一个注意力或MLP块 F ( ⋅ ) \mathcal{F}(\cdot) F(⋅)，它应用以下变换：
x l + 1 = x l + F ( x l ) ⊙ λ , \mathbf{x}{l+1}=\mathbf{x}{l}+\mathcal{F}(\mathbf{x}_{l})\odot\lambda, xl+1=xl+F(xl)⊙λ,

其中 λ ∈ R d \lambda \in \mathbb{R}^d λ∈Rd是一个可学习的缩放向量，通常初始化为一个较小的值（例如 10 − 4 10^{-4} 10−4）。这种机制通常被称为 LayerScale，并已被用作许多现代ViT架构（如DINO v3）的默认组件。

虽然LayerScale尚未在语言模型中广泛采用，但我们观察到LayerScale与后归一化（post-normalization）之间存在内在联系，后者被认为是稳定深度LLM训练的重要技术。形式上，后RMSNorm可以重写为：
x l + 1 = ( x l + F ( x l ) ) ⊙ λ p / N o r m \mathbf{x}{l+1}=\left(\mathbf{x}{l}+\mathcal{F}(\mathbf{x}{l})\right)\odot\lambda{p}/\mathrm{Norm} xl+1=(xl+F(xl))⊙λp/Norm

其中
N o r m = R M S ( x l + F ( x l ) ) \mathrm{Norm}=\mathrm{RMS}(\mathbf{x}{l}+\mathcal{F}(\mathbf{x}{l})) Norm=RMS(xl+F(xl))

且 λ p ∈ R d \lambda_p \in \mathbb{R}^d λp∈Rd是一个缩放向量。我们可以发现，LayerScale直接控制块输出的尺度，而后归一化隐式地缩放块输出和残差。在我们的实验中，LayerScale和后归一化带来了高度相似的性能提升（见表1）。鉴于LayerScale提供了更大的灵活性和更低的计算开销，我们将LayerScale作为ViT-5的默认组件引入。我们希望关于LayerScale和后归一化之间功能关系的这一观察也能为未来的LLM架构设计提供有用的见解。

3.2. 归一化 (Normalization)

自LLaMA、PaLM和Gopher等有影响力的语言模型以来，LLM架构的事实标准已从层归一化（LayerNorm）大幅转向均方根归一化（RMSNorm）。这一转变背后的一个共同观察是，归一化层的重缩放不变性主导了其实际效果。移除LayerNorm中的重中心操作不会降低性能，甚至可以通过减少不必要的偏移噪声带来轻微改进。我们在ViT中也观察到了类似的现象。在我们的实验中，用RMSNorm替换LayerNorm略微降低了计算成本，并产生了适度的性能增益（例如，ViT-B在ImageNet上的top-1准确率提高了+0.2%）。受这些发现的启发，我们在ViT-5中全程使用RMSNorm，替换了原始架构中的所有LayerNorm层。

3.3. 门控MLP (Gated MLP)

类似于从LayerNorm到RMSNorm的转变，现代LLM广泛使用了门控MLP架构，其中传统的GeLU激活被SwiGLU（Swish-Gated Linear Unit）取代。

然而，在本研究中，我们观察到将SwiGLU MLP与LayerScale结合会导致ViT的性能显著下降（见表2）。我们将此问题归因于LayerScale和门控MLP都有效地执行了通道级过滤，这增加了中间表示的稀疏性；当一起使用时，它们的综合效果可能导致激活过于稀疏。从这个角度来看，LayerScale可以看作是一种静态门控形式，而联合使用LayerScale和SwiGLU MLP时观察到的性能下降可以理解为"过度门控"（over-gating）的情况。

在此我们得出初步结论：至少在ViT-XL规模（隐藏维度为1152，参数量为4.49亿）之前，应避免结合LayerScale和门控MLP。对于具有更高隐藏维度或 substantially 更多参数的大规模模型，过度稀疏问题可能会得到缓解，但我们将这一领域的系统研究留给未来工作。因此，ViT-5使用带有GeLU激活的原始MLP设计。

3.4. 位置编码 (Positional Encoding)

标准ViT采用可学习的绝对位置嵌入（APE），已被证明在复杂的视觉推理任务中缺乏显式的相对位置建模，并且在处理动态输入分辨率时存在固有局限性。遵循这些发现，我们将旋转位置嵌入（RoPE）扩展到2D设置并将其纳入我们的模型。重要的是，我们并没有丢弃绝对位置嵌入；相反，ViT-5联合使用APE和2D RoPE。动机是单独使用相对位置编码可能会引入不良的不变性。例如，在仅使用RoPE的公式下，图像块的翻转变得完全不变，如图2所示，其中两个输入图像被视为等价。虽然这种行为对图像分类等简单任务影响有限，但对于通用视觉骨干来说可能存在潜在限制，因为在更复杂的视觉推理中绝对空间线索可能至关重要。

图3比较了ViT-5和DeiT-III处理动态输入分辨率的能力。两个模型均在 224 × 224 224 \times 224 224×224分辨率下训练，并在不同的测试分辨率下评估而无需微调。结果显示，仅依赖绝对位置嵌入的DeiT-3仅在接近训练分辨率时表现最佳，随着输入尺寸增加，其准确率迅速下降。相比之下，ViT-5表现出显著更强的分辨率鲁棒性。在从224到512的广泛输入范围内，ViT-5没有显示出明显的性能下降。此外，在广泛的分辨率跨度内（例如，对于ViT-5-L从128到384），增加输入尺寸 consistently 带来性能增益，表明了对动态分辨率的改进的可扩展性和泛化能力。

3.5. Register令牌 (Register Tokens)

"视觉Transformer需要Registers"是指最近的一个发现，即ViT中出现的伪影可以通过附加到输入块令牌的可学习令牌来有效解决。实际上，registers的实际作用超出了其最初的动机。这些可学习令牌提供了一个灵活的表示空间，支持诸如meta queries和图像的1D tokenization等扩展。为了利用这些特性，我们将registers作为ViT-5的默认组件引入。

我们观察到，在配备RoPE的ViT中，register令牌也应分配相对位置嵌入。这是因为当向量旋转操作仅应用于块令牌而留下register令牌未旋转时，registers自然地与经历较小旋转角度的块表现出较低的余弦相似度。这种不平衡扭曲了注意力分布，并隐式地引入了不良的位置偏置。为了解决这个问题，我们为register令牌配备了单独的2D RoPE，其频率基数显著高于块令牌使用的频率基数。这种设计在不同的通道维度上诱导了registers和块令牌的不同旋转行为，有效地解耦了它们的位置相关性并消除了不良偏置。经验上，这一修改稳定了register-块交互并提高了整体表示质量，详细的性能比较见表3。

我们还提供了DeiT-III和ViT-5之间注意力激活的定性比较（图4）。与先前的观察一致，register令牌有效地抑制了注意力图中的背景伪影，使类令牌能够更准确地关注图像的语义有意义区域。在ViT-5中，我们观察到明显更清晰和更集中的特征图，我们将此归因于register令牌和相对位置嵌入的综合效应。这两个组件在增强视觉Transformer的空间建模能力方面都发挥着重要作用。

3.6. QK归一化 (QK-Normalization)

最新的LLM（如Qwen3和Gemma3）已开始通过对查询和键应用额外的归一化来改革自注意力。形式上，这种QK归一化机制具有：
Q ′ = R M S N o r m ( Q ) , K ′ = R M S N o r m ( K ) , Q^{\prime}=\mathrm{RMSNorm}(Q), K^{\prime}=\mathrm{RMSNorm}(K), Q′=RMSNorm(Q),K′=RMSNorm(K),
A t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q ′ K ′ T / d ) V . \mathrm{Attention}(Q,K,V)=\mathrm{Softmax}\left(Q^{\prime}K^{\prime T}/\sqrt{d}\right)V. Attention(Q,K,V)=Softmax(Q′K′T/d )V.

我们发现QK归一化为ViT带来了适度的性能提升，但可以显著增强训练稳定性并减少优化过程中尖锐损失尖峰的发生（比较见图5）。为了利用这些鲁棒性优势，我们将QK-Norm作为ViT-5的默认组件引入。

3.7. QKV的偏置项 (Bias Terms for QKV)

我们在整个ViT-5模型中使用无偏置的RMSNorm，包括所有pre-norm和QK-Norm层。这强调了自注意力更依赖于加权投影而不是加性偏置的观点。因此，我们移除了QKV投影层中的偏置项以确保结构一致性。这一修改允许QK-Norm更有效地运作，并带来显著的性能提升，详见第4.4节。

4. 实验

4.1. 图像分类

遵循先前的实践，我们通过DeiT-III的方案（稍作修改）在ImageNet-1k上从头开始训练所有模型。详细实现见附录。模型配置总结在表4中。如表5所示，ViT-5在相当的参数量和计算预算下 consistently 实现了最先进的性能。值得注意的是，其性能优势随模型大小和输入分辨率平滑扩展。特别是，ViT-5-L在 384 × 384 384 \times 384 384×384输入下达到了86.0%的测试准确率，显著超越了ViT（85.4%）和基于CNN的模型（85.5%）的先前最先进水平。

这些结果表明，通过系统地细化ViT的组件可以实现 substantial 且可扩展的增益。由于ImageNet-1k仍然是评估视觉骨干最常用的基准，在该数据集上观察到的一致改进提供了强有力的证据，表明ViT-5提供了增强的表示学习能力，并且可以作为有竞争力的通用视觉骨干来替代现有架构。

4.2. 图像生成

我们通过将ViT-5训练为扩散Transformer（DiT）的骨干来评估其用于图像生成的可迁移性。我们遵循与SiT相同的配置，用ViT-5替换普通ViT骨干，并在ImageNet-256上进行训练和评估。实现细节见附录。

如表6所示，在相同的训练配置下，简单地用ViT-5替换原始ViT骨干可以在多个模型规模上显著优于DiT和SiT。在表7中，我们进一步将训练扩展到7M步，并观察到ViT-5在Fréchet Inception Distance (FID)、Inception Score (IS) 以及Precision和Recall指标上 consistently 优于其ViT对应物。图6展示了不同模型规模在不同训练长度下的扩散模型的缩放曲线。我们观察到，使用ViT-5作为骨干的模型 consistently 优于其普通ViT对应物，并且随着训练的进行表现出平滑稳定的缩放行为。综上所述，这些结果表明ViT-5在视觉理解和图像生成任务中都能有效泛化，突显了我们组件级架构现代化的更广泛影响。通过系统地细化核心Transformer组件，ViT-5成为各种视觉工作负载的强大且多功能的骨干。

4.3. 密集预测

我们进一步在ADE20k上使用UperNet框架评估ViT-5的语义分割性能。所有模型均在 512 × 512 512 \times 512 512×512分辨率下训练160k次迭代，骨干网络在ImageNet-1k上预训练相同的epoch数。所有其他训练设置在不同方法间保持一致，技术细节见附录。如表8所示，ViT-5在所有模型规模上 consistently 优于DeiT-III。具体而言，ViT-5-Small、ViT-5-Base和ViT-5-Large分别达到了47.5%、49.1%和52.0%的mIoU，而它们的DeiT-III对应物在相同参数预算下分别为45.2%、48.0%和49.3%。值得注意的是，性能差距随模型规模扩大而增加，表明组件级现代化的益处在较大模型中变得更加明显。这些结果还表明，ViT-5能有效迁移到密集预测任务，并在不引入特定任务架构更改的情况下提供一致的增益，进一步支持其作为强大通用视觉骨干的角色。

4.4. 消融研究

在本工作中，我们检查了ViT中的七个架构组件及其相应的设计选择。由于详尽列举所有可能的组合成本过高，我们专注于两个互补的消融设置。首先，我们将ViT-5与现有视觉模型或语言模型中普遍采用的Transformer配置进行比较，以评估先前工作中探索和广泛使用的设计选择对于视觉任务是否最优。其次，从完整的ViT-5模型开始，我们单独消融每个组件，以隔离和量化它们各自对整体性能的贡献。

与现有设计的比较 。表9将ViT-5与源自流行视觉Transformer和现代语言模型的架构配置进行了比较。为了在更大规模和更高分辨率下充分评估模型容量，此消融使用分辨率为 384 × 384 384 \times 384 384×384的ViT-Large进行。总结如下，在面向视觉的设计中，诸如DeiT-III、DINO v2/v3、VisionLLaMA等模型采用了现代Transformer组件的子集，但没有一个同时采用本工作中识别的所有有效改进。因此，它们的性能 consistently 低于ViT-5，在ImageNet-1k上的top-1准确率差距从0.31%到超过1.15%不等。

我们还观察到，直接将语言模型的配置迁移到视觉任务是不够的。尽管LLaMA、Qwen和Gemma风格的设置引入了先进的归一化、门控MLP和相对位置编码，但当适配到ViT（RoPE扩展到2D）时，它们的性能仍不如ViT-5。这突显了为语言模型优化的架构选择并不能 trivially 转化为最佳的视觉性能。相比之下，ViT-5通过系统地整合这些组件并结合视觉特定的考量，实现了最佳准确率，表明现有的设计选择对于视觉Transformer来说是未充分优化的，并激发了原则性的、组件级的现代化。

单个组件的影响。表10报告了在不同模型规模下对ViT-5进行单组件消融的结果。总体而言，与完整的ViT-5配置相比，移除任何单个组件都会导致准确率 consistently 下降，证实了每个设计选择都对最终性能有积极贡献。虽然退化幅度在不同组件和模型规模间有所不同，但没有单一修改在所有设置中占主导地位，强调了所采用架构改进的互补性质。

我们还观察到单个架构组件的影响在不同模型规模上并不均匀。某些组件对较小模型表现出更强的影响，而其他组件随着模型规模增大变得越来越关键。例如，在没有适当稳定的情况下用SwiGLU替换GeLU会导致Small模型的性能显著下降，反映了紧凑模型对门控引起的稀疏性的高敏感性。相比之下，LayerScale和2D RoPE等组件在较大模型上显示出更实质性的影响，其中更深的网络和更高的表示能力放大了训练稳定性和相对位置建模的重要性。值得注意的是，移除Registers和QK-Norm对Small模型导致的退化相对适度，但对Base和Large变体导致一致且更大的下降，表明这些组件随着模型容量增加发挥更重要的作用。

组件细节。表11分析了ViT-5对几个关键架构超参数的敏感性。我们观察到LayerScale初始化对性能有适度影响，太小的初始化值会使基础规模的ViT-5模型准确率降低0.15%。ViT-5默认遵循大多数LLM的1D RoPE实践，将频率基数设置为1e-5，这里展示了最佳性能。在本工作的所有ViT-5模型中，我们使用了四个可学习的registers。我们观察到register的数量对预测性能只有微不足道的影响，并且对不同设置显示出良好的鲁棒性。

5. 结论

在本文中，我们对视觉Transformer进行了系统的现代化改造，并表明仔细的组件级刷新可以在不重新设计整体架构的情况下释放巨大的潜力。通过更新归一化和激活选择、加强用于空间推理的位置编码，以及引入轻量级门控和可学习令牌，ViT-5成为一种实用的下一代ViT，更易于优化且在各种视觉设置中更鲁棒。大量实验验证了在图像分类、生成和语义分割方面的一致性改进。这些增益可跨任务迁移，表明这些益处并非特定于基准，而是反映了改进的表示和空间归纳偏置。更广泛地说，我们的结果表明，ViT的演变可以遵循与现代大型语言模型骨干相同的模块化、最佳实践驱动的轨迹，其中稳定性和性能来自原则性的组件选择，而不是日益复杂的宏观架构。我们希望ViT-5为2020年代中期的视觉和多模态系统提供一个强大、兼容的基础，并鼓励社区将骨干现代化视为一流的、可重复的设计过程。

附录

A.1. 图像生成示例

图7展示了由我们模型生成的定性示例。视觉上，生成的图像表现出高感知质量，具有连贯的全局结构、保存完好的物体形状以及细粒度的纹理细节。结果看起来令人愉悦且自然，没有明显的伪影或空间不一致性。我们将这种强大的视觉质量归因于不仅模型表示能力的提升，还在于其增强的空间感知能力。更好的空间建模使模型能够更准确地捕捉长程依赖和局部细节，从而产生更一致的布局和更清晰的纹理。综合这些特性，使模型能够生成具有更丰富细节和更高视觉保真度的图像。

A.2. 架构设计原则

我们的设计受一组高层原则指导，旨在通过组件级升级来现代化视觉Transformer，而不是引入新的架构范式。主要目标是在保留ViT强大泛化能力的同时提高表示能力。详细原则包括以下几个方面：

保留原始普通ViT结构：以确保跨任务的广泛适用性以及与多模态系统的易于集成。为此，我们避免在网络内部进行任何形式的空间下采样。除了初始的补丁化（patchification）步骤外，所有中间特征图在整个模型中保持固定的空间分辨率。
仅使用自注意力作为令牌混合机制：虽然先前的工作表明引入卷积可以引入更强的归纳偏置并提高标准基准上的性能，但为了架构的简单性和通用建模，我们故意放弃了这些潜在的收益。
不专注于改进补丁化层：而是采用标准的非重叠补丁嵌入与线性投影。这一选择的动机是观察到许多现代面向生成的视觉模型不再依赖补丁嵌入进行令牌化，而是使用专用的VAE或学习到的令牌化器。因此，对补丁嵌入的细化主要有利于像素空间的理解任务，与我们最大化泛化能力的目标不一致。

A.3. 更多注意力可视化

图8在与图4相同的实验设置下，可视化了DeiT-III和ViT-5的局部令牌注意力图，区别在于我们是从选定的局部令牌而不是类令牌进行注意力计算。两个模型均在ImageNet-1K上预训练相同的时间，并在 384 × 384 384 \times 384 384×384分辨率下进行微调；注意力可视化也在同一分辨率下生成。

与DeiT-III相比，ViT-5表现出明显更清晰、更有结构的注意力模式。ViT-5中局部令牌的注意力在空间上更连贯，并且更好地与语义上有意义的区域对齐，而背景伪影被大幅抑制。相比之下，DeiT-III通常显示出更分散和嘈杂的激活。结合正文中的类令牌注意力可视化，这些结果定性地证明了ViT-5在空间建模能力上取得了实质性的改进，超越了数值性能的提升。更清晰的注意力图表明更精确的令牌交互和更可靠的空间推理，突显了ViT-5中引入的组件级现代化的有效性。

A.4. 技术细节

ImageNet 分类

对于ImageNet-1k分类，ViT-5遵循两阶段训练流程，包括大规模预训练和随后的微调。总体而言，我们的训练方案很大程度上遵循DeiT-III的方案，并进行了一些 minor 修改以适应ViT-5中引入的架构变化。

预训练阶段（表12）：模型从头开始训练，使用带有大批量和余弦学习率调度器的LAMB优化器。我们采用DeiT风格训练中常用的标准数据增强，包括随机调整大小裁剪、水平翻转、Mixup和CutMix，同时禁用标签平滑和Dropout。随机深度（Stochastic depth）以规模依赖的比率应用，并启用梯度裁剪以提高训练稳定性。
微调阶段（表13）：我们切换到AdamW优化器，使用较小的学习率并训练较短的周期。微调在224和384分辨率下进行（如适用），遵循常见做法。与预训练相比，微调使用简化的增强策略，启用标签平滑并调整随机深度比率。这些设置确保了公平且强大的训练基线，同时允许独立评估ViT-5架构细化的效果，而不受激进方案变化的影响。

表12. ViT-5在ImageNet-1k上的预训练超参数

表13. ViT-5在ImageNet-1k上的微调超参数

图像生成

对于图像生成，我们遵循SiT的训练协议，并将普通ViT骨干替换为ViT-5。除非另有说明，所有超参数和优化设置均与SiT保持一致，以确保公平比较。特别是，模型使用与原始SiT论文中描述的相同的优化器、批量大小、学习率调度器和数据预处理进行训练。

我们考虑两种训练制度：

短期训练：在不同模型规模下最多进行800K步，以评估效率和早期阶段的缩放行为。
长期训练：为了评估长周期的可扩展性，我们对ViT-5-XL进行了7M步的大规模训练。此长期训练实验采用1.5的无分类器引导（classifier-free guidance）比例，并使用随机微分方程（SDE）公式，遵循SiT设置。

语义分割

对于语义分割，我们使用UperNet框架在ADE20K上评估ViT-5。我们的训练协议很大程度上遵循先前的基于ViT的分割工作，并在所有骨干网络之间保持一致以确保公平比较。

所有模型均从ImageNet-1k预训练检查点初始化。
在 512 × 512 512 \times 512 512×512分辨率下训练160k次迭代。
使用用于密集预测的标准数据增强策略，包括随机调整大小、裁剪和水平翻转。
使用带有余弦学习率调度器的AdamW进行优化，并以规模依赖的方式应用随机深度。
在将普通ViT骨干替换为ViT-5时，未引入特定于任务的架构修改。