(Arxiv-2025)通过动态 token 剔除实现无需训练的高效视频生成

通过动态 token 剔除实现无需训练的高效视频生成

paper是CUHK发布在Arxiv 2025的工作
paper title：Training-Free Efficient Video Generation via Dynamic Token Carving
Code：链接

图1：Jenga 通过高效的 DiT 推理流程生成高质量视频。(a)：即使使用极度稀疏的注意力机制，依然能够保留生成视频中的细节。(b)：我们通过结合渐进式分辨率设计的动态稀疏注意力机制，最小化 token 之间的交互。图中展示了由 Jenga 生成的视频（采样为 48 帧），涵盖了不同的模型，并标注了对应的 DiT 推理延迟和相对加速率。请使用 Adobe Acrobat Reader 进行实时视频可视化。

Abstract

尽管视频扩散 Transformer（DiT）模型在生成质量方面表现出色，但其实际部署受到大量计算需求的严重限制。这种低效性主要源于两个关键挑战：一是自注意力机制在 token 长度上的二次复杂度，二是扩散模型本身的多步生成特性。为了解决这些问题，我们提出了 Jenga，这是一种新颖的推理流程，结合了动态注意力剔除与渐进式分辨率生成策略。我们的方法基于两个关键洞察：（1）在扩散的早期阶段，不需要高分辨率的潜在变量；（2）在后期阶段，不需要密集的注意力机制。Jenga 引入了一种块级注意力机制，利用三维空间填充曲线动态选择相关的 token 交互，同时采用渐进式分辨率策略，在生成过程中逐步提升潜在分辨率。实验结果表明，Jenga 在多种最先进的视频扩散模型上实现了显著的加速，同时保持了可比的生成质量（在 VBench 上加速 8.83 倍，仅有 0.01% 的性能下降）。作为一种即插即用的方案，Jenga 无需重新训练模型，即可在现代硬件上实现高质量、快速的视频生成，将推理时间从分钟级缩短至秒级。

1 Introduction

潜在扩散模型（Latent Diffusion Models）的进展显著推动了图像和视频生成的发展。最近，扩散 Transformer（DiT）由于其固有的可扩展性和优越的生成能力，已成为基础模型的主流架构。随着高分辨率视频生成技术的不断发展，基于 DiT 的模型规模达到了前所未有的程度，生成高质量内容的计算效率变得尤为重要。例如，在一张 NVIDIA H800 GPU 上使用 HunyuanVideo [12] 生成一个仅 5 秒的 720P 视频需要大约 27 分钟，严重限制了其在真实场景中的实用性。

这一挑战主要源于两个正交因素：（1）自注意力机制与巨大的 token 长度 N N N。在高分辨率生成中，token 长度的持续增长导致了 Transformer 中自注意力机制的计算瓶颈，其复杂度为 O ( N 2 ) O(N^2) O(N2)。即使采用了高效的注意力机制 [17]，HunyuanVideo [12] 中的自注意力仍占据了总处理时间的 77.8%。（2）扩散模型的多步特性。去噪过程需要在 DiT 架构中执行 T T T 次前向计算，相较于具有相似规格的非扩散模型 [18, 19]，引入了 T T T 倍的计算开销。

为了解决这些挑战，已经探索了多种方法。一类方法关注于基于算子的加速，特别是注意力优化，以消除计算瓶颈。STA [20]、CLEAR [21] 和 SVG [22] 在时间或空间维度上预定义了 head-aware 的注意力稀疏模式。然而，这些方法无法充分处理输入之间注意力模式的动态变化，且加速比有限（通常为 1.5--2 倍），难以满足实际部署的需求。另一类正交方法则从蒸馏 [23, 24, 25, 26]、量化 [27, 28, 29] 或特征重用 [30, 31, 32] 等方向优化扩散生成流程。然而，蒸馏通常需要高昂的训练成本，且往往会降低输出质量。类似地，特征重用和量化方法在实现足够的加速比方面也面临一定限制，难以满足实际应用的要求。

基于上述两个正交瓶颈因素，我们提出了 Jenga ------ 一种渐进式、完全稀疏的推理流程，配合动态且具泛化能力的 Attention Carving 核心机制。已有研究表明，扩散模型的去噪过程是从低频到高频逐步生成的 [33, 34]，即前期步骤主要构建内容结构，后期步骤则用于细节精修。Jenga 的核心思想是：早期去噪阶段并不需要高分辨率的潜在变量，而后期阶段则不需要稠密的全注意力机制。一旦视频的内容基本确定，潜在空间中存在大量冗余，不必让所有 token 都参与注意力计算；尤其是在高分辨率下，注意力本身就是稀疏的，细节也可以在稀疏注意力下生成。

因此，Jenga 设计了一个设备友好的 Attention Carving 核心模块，该模块使用空间填充曲线将潜在变量划分为连续的 latent 块，并采用块级注意力，仅对关键的 key-value 对进行选择性计算，从而形成高效的注意力机制。如图1(a)所示，即使仅保留 1% 的 key-value 块，视频细节依然能够得以保留。

在生成内容结构时并不需要大量潜在变量输入，因此我们提出了一种多阶段的渐进式分辨率（Progressive Resolution，ProRes）策略，通过阶段性地调整潜在分辨率与去噪过程来生成视频，从而有效减少 token 之间的交互。在此策略下，我们面临分辨率相关的视野变化问题，它会影响内容的丰富度。例如，低分辨率生成往往聚焦于局部细节，而非全局场景。为了解决这一问题，我们引入了一个文本注意力放大器（text-attention amplifier），用于减弱对局部邻域的关注，提升对条件信息的利用，从而生成更加内容丰富的结果，其效果接近于直接使用高分辨率生成内容。

如图1(b)所示，Jenga 融合了两种互补的技术：ProRes 以低分辨率实现稳健的内容生成，Attention Carving 则通过稀疏注意力减少 token 交互。类似现实世界中巧妙堆叠的 Jenga 积木，这两种技术协同实现了高块稀疏度下的高效高质量视频生成。得益于 Jenga，我们在多种最先进的基于 DiT 的视频扩散模型上实现了出色的加速效果。例如，在 HunyuanT2V [12] 上实现了 4.68--8.83 倍加速，同时在 VBench [35] 上保持了可比的性能表现。类似地，我们在 HunyuanVideo-I2V 模型上实现了 4.43× 加速，在蒸馏模型 AccVideo [25] 上实现了 2.12× 加速，在 Wan2.1 1.3B [13] 上实现了 4.79× 加速。此外，当部署在一个 8×H800 GPU 计算节点上时，Jenga 将 HunyuanVideo 的 DiT 推理时间缩短至 39 秒，AccVideo 缩短至 12 秒。

我们的贡献主要有三点：（1）我们提出了一种新颖的动态块级注意力剔除方法，可实现高效的稀疏注意力计算，用于视频生成；（2）我们引入了渐进式分辨率机制（Progressive Resolution），将内容生成阶段与细节精修阶段解耦，从而减少 token 交互并进一步提升推理速度；（3）作为一种即插即用的推理流程，Jenga 在多种现代视频 DiT 架构中实现了前所未有的推理加速。

Transformer 中的高效注意力设计是一个关键的研究方向，旨在缓解由于 token 序列长度 N N N 导致的二次复杂度 O ( N 2 ) O(N^2) O(N2) 带来的计算负担。在语言模型中，高效注意力方法如 MInference [36]、HIP [37, 38]、MoBA [39] 和 NSA [40, 41, 42, 43] 采用部分或层次化的 key-value 选择机制，以实现对长上下文的高效理解。为了处理密集的视觉特征，高效注意力设计也被引入到 ViT 和扩散模型中，例如线性注意力 [44, 45] 和级联注意力 [46]。这些方法的共同目标是减少参与注意力计算的活跃 token 数量，从而实现加速并降低内存需求。

高效视频生成在视频扩散 Transformer（DiTs）迅速发展背景下，受到广泛关注。早期加速技术主要集中于减少采样步骤，通常采用如蒸馏方法 [25, 26] 或无训练的特征重用策略（如 TeaCache [31] 和 RAS [32, 48]）。Bottleneck Sampling [49] 在不同采样阶段采用可变分辨率策略，从而在中间计算阶段使用更少的 token。除了步骤简化策略外，针对 DiT 的各种高效注意力机制也被提出，包括 CLEAR [21]、STA [20] 和 SVG [22]，这些方法依赖于局部注意力分布的基本假设。尽管该假设有助于保持注意力的一致性，但却限制了模型对远程特征聚合的能力。

最近在块级注意力方面的进展（如 SpargeAttn [50, 27] 和 AdaSpa [51]）能够根据块级均值等统计量进行选择性处理，在视频生成流程中实现约两倍的加速。然而，这些方法的优化潜力仍受到刚性块划分结构和注意力稀疏参数需进一步调优的限制。

3 Jenga: Token-Efficient Optimization for Video Diffusion Transformers

潜在扩散模型（Latent Diffusion Models, LDMs）[1] 旨在反转噪声污染过程，将随机噪声转化为干净的潜在空间样本。在时间步 t ∈ { 0 , ... , T } t \in \{0, \dots, T\} t∈{0,...,T} 时，模型预测潜在状态 x t x_t xt，条件为 x t + 1 x_{t+1} xt+1：
p θ ( x t ∣ x t + 1 ) = N ( x t ; μ θ ( x t + 1 , t ) , σ t 2 I ) , p_\theta(x_t \mid x_{t+1}) = \mathcal{N}(x_t; \mu_\theta(x_{t+1}, t), \sigma_t^2 I), pθ(xt∣xt+1)=N(xt;μθ(xt+1,t),σt2I),

其中 θ \theta θ 表示模型参数， μ θ \mu_\theta μθ 表示预测的均值， σ t \sigma_t σt 是预设的标准差调度。

对于扩散 Transformer [8]，在每个时间步 t t t，模型处理带噪的视觉潜在 token x t x_t xt，并结合条件嵌入 x c x_c xc（例如文本 prompt 的 token），以预测该时间步添加的噪声分量 ϵ \epsilon ϵ。调度器 [52] 引导逐步的去噪过程，以计算下一个去噪状态：
x t − 1 = scheduler ( x t , ϵ , t ) , x_{t-1} = \text{scheduler}(x_t, \epsilon, t), xt−1=scheduler(xt,ϵ,t),

最终获得完全去噪的视频潜在变量 x 0 x_0 x0，随后通过预训练的 VAE 解码器转换回像素空间。

我们方法的概述如图2所示。Jenga 的目标是在视频 DiT [8] 中，每次操作中减少所处理的 token 数量，以最小化计算复杂度。这一目标通过两个主要优化手段实现：（1）提升自注意力机制的计算效率（见第3.1节），（2）简化推理流程（见第3.2节）。在视频 DiT 中，我们通常处理的 token 数为：
N v = numel ( z v ) = t h w , N_v = \text{numel}(z_v) = thw, Nv=numel(zv)=thw,

其中 t , h , w t, h, w t,h,w 分别表示视频潜在变量 z v z_v zv 在潜在空间中的时间长度、高度和宽度， z v z_v zv 来自于视觉 patch 嵌入层后的表示，即：
z v = patchemb ( x v ) 。 z_v = \text{patchemb}(x_v)。 zv=patchemb(xv)。

3.1 Block-Wise Attention Carving

如 [20, 50] 所指出，随着 token 数量的增加，Transformer 前向传播过程中用于自注意力计算的时间比例越来越高。视频 Transformer 中的三维全注意力机制在最基本形式下可以表示为：

Attention ( Q i , K i , V i ) = softmax ( Q i K i ⊤ d k ) V i , \text{Attention}(Q_i, K_i, V_i) = \text{softmax}\left( \frac{Q_i K_i^\top}{\sqrt{d_k}} \right) V_i, Attention(Qi,Ki,Vi)=softmax(dk QiKi⊤)Vi,

其中 Q i , K i , V i ∈ R N × d k Q_i, K_i, V_i \in \mathbb{R}^{N \times d_k} Qi,Ki,Vi∈RN×dk 分别表示第 i i i 个注意力头的 query、key 和 value 特征。我们定义 d d d 为嵌入维度， h h h 为注意力头数量，因此 d k = d / h d_k = d/h dk=d/h。 N = N v + N c N = N_v + N_c N=Nv+Nc 表示总 token 数量，由 N v N_v Nv 个视觉 token 和 N c N_c Nc 个条件 token 组成。在视频扩散模型中，该注意力操作因其 O ( N 2 ) O(N^2) O(N2) 的复杂度，在空间和时间维度上带来显著的计算开销。

图2：Jenga 概览。左侧展示了注意力剔除机制。一个三维视频潜在表示在输入 Transformer 层之前被划分为局部块。随后执行块级注意力以生成感知注意力头的稀疏块选择掩码。在每个被选中的块中，执行稠密的并行注意力操作。右侧展示了渐进式分辨率策略。通过压缩 token 数量和时间步数，以实现高效的视频生成。

图3：注意力剔除（AttenCarve）。这里我们展示了一个 4 × 4 × 4 4 \times 4 \times 4 4×4×4 潜在变量的玩具示例，其中 m = 8 m = 8 m=8 表示每个块包含8个潜在项。左图：通过空间填充曲线（SFC）对三维潜在表示进行重排和块划分。右图：在执行公式 (3) 中的块级注意力后，我们可以构建重要性掩码（Importance Mask），并将其与预计算的条件掩码（Condition Mask）和邻接掩码（Adjacency Mask）结合，形成块级稠密注意力掩码，并将其传递给自定义内核以实现设备友好的注意力操作。

由于视频潜在表示中存在固有冗余，一种直接提升效率的方法是减少每个 query 参与的 key-value 对数量。我们采用如图3所示的块级粗粒度 key-value 选择方法。FlashAttention [53, 17] 及其他 GPU 优化方法 [50, 20] 将 Q Q Q 和 K V KV KV 平均划分为 M M M 个块，每个块含有 m = N / M m = N / M m=N/M 个 token，对应于注意力计算中并行的 m m m 个线程，以计算所有 M 2 M^2 M2 块的精确注意力结果。为简化，我们假设 N v N_v Nv 和 N c N_c Nc 是 m m m 的倍数。我们的目标是在块级别减少 KV 对。

首先，为了获得在三维块内具有更高内部相似性的 token，我们将一维视频 token z t h w z_{thw} zthw（沿 t , h , w t,h,w t,h,w 维展平）重排为块顺序 z blk z_{\text{blk}} zblk，再进行后续划分。重排和逆重排过程表示为：

z blk = G ( z t h w ) , z t h w = G − 1 ( z blk ) , z_{\text{blk}} = \mathcal{G}(z_{thw}), \quad z_{thw} = \mathcal{G}^{-1}(z_{\text{blk}}), zblk=G(zthw),zthw=G−1(zblk),

其中 G ( ⋅ ) \mathcal{G}(\cdot) G(⋅) 是通过广义 Hilbert 排序实现的索引置换函数 [54, 55, 56]，图3左图展示了一个示例。与常规线性 hwt 排序相比，该空间填充曲线（SFC）排序可在一维 token 中有效保留原始空间中的三维邻近关系，从而在展平维度上实现均匀分块，并优化注意力计算。

对于 KV 块选择，我们为每个注意力头构建了一个 one-hot 块级二维掩码 B ∈ R M × M \mathbf{B} \in \mathbb{R}^{M \times M} B∈RM×M，表示块稀疏注意力的选择结果。该掩码是三种掩码的并集，如图3右图所示：（1）重要性掩码 B top \mathbf{B}_{\text{top}} Btop。基于 MoBA [39]，我们使用块均值计算注意力概率图，从而粗略识别哪些块对之间需要进行注意力计算。对于重排后的输入，其块相关性表示为：

R = softmax ( Q ^ K ^ ⊤ d k ) , \mathbf{R} = \text{softmax} \left( \frac{\hat{Q} \hat{K}^\top}{\sqrt{d_k}} \right), R=softmax(dk Q^K^⊤),

其中 ( ⋅ ) (\cdot) (⋅) 表示每个大小为 m m m 的块的均值池化操作。对于第 i i i 个 query 块，我们设定一个比例 k k k，保留在 R \mathbf{R} R 中得分最高的 k M kM kM 个 key-value 块。同时设定一个阈值 p p p，保证选中的块满足累积 softmax 概率约束：

∑ j ∈ B top [ i ] R [ i ] [ j ] > p 。 \sum_{j \in \mathbf{B}_{\text{top}}[i]} \mathbf{R}[i][j] > p。 j∈Btop[i]∑R[i][j]>p。

该约束用于避免全局上下文信息丢失，特别是对部分注意力头的聚合能力至关重要。

（2）条件掩码 B cond = { i > N v / m ∨ j > N v / m } \mathbf{B}_{\text{cond}} = \{i > N_v / m \ \lor \ j > N_v / m\} Bcond={i>Nv/m ∨ j>Nv/m}，其中 i , j i,j i,j 是 query-key 块维度下的索引。这表示所有条件相关的注意力必须完全计算。

（3）邻接掩码 B adja = { adja ( i , j ) } \mathbf{B}_{\text{adja}} = \{\text{adja}(i, j)\} Badja={adja(i,j)}，表示第 i i i 块和第 j j j 块在三维 t h w thw thw 空间中是否相邻。该掩码有助于解决空间上相邻块之间的边缘伪影问题。

在 Jenga 中， B cond \mathbf{B}{\text{cond}} Bcond 和 B adja \mathbf{B}{\text{adja}} Badja 是预计算的，仅由分辨率和划分函数 G \mathcal{G} G 决定。最终的选择掩码定义为三种 one-hot 掩码的并集：

B = B top ∪ B cond ∪ B adja 。 \mathbf{B} = \mathbf{B}{\text{top}} \cup \mathbf{B}{\text{cond}} \cup \mathbf{B}_{\text{adja}}。 B=Btop∪Bcond∪Badja。

对于块级稀疏注意力，我们跳过所有 B [ i ] [ j ] = 0 \mathbf{B}[i][j] = 0 B[i][j]=0 的索引计算，从而实现注意力复杂度 O ( N ′ N ) O(N' N) O(N′N)，其中 N ′ = m ∑ B / M N' = m \sum \mathbf{B} / M N′=m∑B/M 表示平均选择的 token 数量。

3.2 Progressive Resolution

块级注意力剔除（Block-wise Attention Carving）显著降低了每次 DiT 前向传递的延迟，但由于扩散采样是一个迭代过程，在扩散阶段压缩 token 数量同样对于加速生成至关重要。借助扩散去噪的粗到细特性 [33, 57]，我们将总共 T T T 个时间步的生成推理过程划分为 S S S 个阶段，从低分辨率 R 1 = { t , h 1 , w 1 , r , d } R_1 = \{\text{t}, \text{h}_1, \text{w}_1, r, d\} R1={t,h1,w1,r,d} 开始，并在每个阶段逐步提升分辨率，直到达到最终目标分辨率 R S = { t , h , w , r , d } R_S = \{\text{t}, \text{h}, \text{w}, r, d\} RS={t,h,w,r,d}，其中 r r r 表示潜在 patch 的尺寸， d d d 是通道维度。阶段切换过程如图4左侧所示。

图4：渐进式分辨率（Progressive Resolution, ProRes）。左：阶段切换与时间步跳跃的简要示意图。在第 s s s 阶段重缩放之前，我们将潜在变量还原至干净状态 x ^ 0 s \hat{x}_0^s x^0s，然后在上采样后的干净潜在变量上重新加噪。右 & 下：我们在视频-文本注意力得分上添加了一个偏置，以在低分辨率内容生成中实现可扩展的视野（Field of View, FOV）。

在每个中间阶段 s s s 的时间步 t t t 结束时，我们预测干净的潜在变量 x ^ 0 s ∈ R R s \hat{x}0^s \in \mathbb{R}^{R_s} x^0s∈RRs，并将其上采样至更高分辨率 R s + 1 R{s+1} Rs+1，然后再按照类似于 [49] 的方法进行重新加噪。阶段间的渐进式分辨率过程定义如下：

x t − 1 = ( 1 − σ t ) × U ( x ^ 0 s ) + σ t ϵ ~ , x ^ 0 s = x t − σ t ϵ t , ϵ ~ ∼ N ( 0 , I ) 。 x_{t-1} = (1 - \sigma_t) \times \mathcal{U}(\hat{x}_0^s) + \sigma_t \tilde{\epsilon}, \quad \hat{x}_0^s = x_t - \sigma_t \epsilon_t, \quad \tilde{\epsilon} \sim \mathcal{N}(0, I) 。 xt−1=(1−σt)×U(x^0s)+σtϵ~,x^0s=xt−σtϵt,ϵ~∼N(0,I)。

其中 U ( ⋅ ) \mathcal{U}(\cdot) U(⋅) 是三维空间中的潜在变量上采样函数，这里我们使用面积插值。 ϵ t \epsilon_t ϵt 是时间步 t t t 的噪声预测值， σ t \sigma_t σt 是调度器 [52] 中时间相关的标准差。通过降低分辨率，早期阶段推理所需的 token 数量显著减少，而在高分辨率下的去噪过程确保了生成视频仍然具备高质量细节。

文本-注意力放大器（Text-Attention Amplifier）。与瓶颈式采样方法 [49] 不同，ProRes 在低分辨率阶段会确定视频内容和结构，但不会在初始阶段保留原始分辨率。虽然 Video DiT 能生成连贯的低分辨率视频，但我们观察到，随着分辨率下降，其视野（Field of View, FOV）会退化，实质上将 ProRes 转化为一种超分辨率过程，尤其是在视频视野受限时更明显。如图4所示，这种现象发生在低分辨率下，因 token 更集中于其空间邻域而导致。

为了在不同分辨率下保持稳定的视野（FOV），我们引入了一个带有分辨率相关偏置项 β \beta β 的文本-注意力放大器（text-attention amplifier）。该放大器在低分辨率的初始阶段"催眠"模型，通过增强文本注意力权重，从而减少对空间邻域的关注。该概念已在图2和图4中展示。具体而言，当处理视觉 query 块 q v q_v qv 和条件 key 块 k c k_c kc 时，带偏置的视觉-条件注意力得分计算如下：

q v k c ⊤ + β q_v k_c^\top + \beta qvkc⊤+β

其中 β = − ρ log ⁡ ( numel ( R s ) / numel ( R S ) ) \beta = -\rho \log(\text{numel}(R_s) / \text{numel}(R_S)) β=−ρlog(numel(Rs)/numel(RS))，基于当前阶段分辨率 R s R_s Rs 和目标分辨率 R S R_S RS 的 token 数量比计算得到， ρ \rho ρ 是一个平衡因子。

无条件时间步跳跃（Case-Agnostic Timestep Skip）。时间步数缩减是高效扩散推理流程中最常见的优化方向之一。诸如 TeaCache [31, 32] 的方法通过缓存输入特征，动态确定哪些时间步可以跳过。然而，在实际应用中，我们观察到 TeaCache 的跳跃机制本质上更像是一个静态时间步调度器，而非真正的基于具体情况的动态跳步方法。

因此，我们采用了固定时间步跳跃设置（23 步，与 TeaCache-fast 相同），在采样过程的开始和结束阶段更密集地采样，而在中间阶段稀疏采样，从而避免了 TeaCache 带来的额外计算开销。