(Arxiv-2026)Helios：真正的实时长视频生成模型

Helios：真正的实时长视频生成模型

paper title：Helios: Real Real-Time Long Video Generation Model
paper是PKU发布在Arxiv 2026的工作
Code:链接

Abstract

我们提出了 Helios，这是首个可在单张 NVIDIA H100 GPU 上以 19.5 FPS 运行、并支持分钟级生成、同时达到强基线质量水平的 14B 视频生成模型。我们在三个关键维度上取得了突破：

(1) 对长视频漂移具有鲁棒性，无需常用的抗漂移启发式方法，例如 self-forcing、error-banks 或关键帧采样；

(2) 实现实时生成，无需依赖标准加速技术，例如 KV-cache、稀疏/线性注意力或量化；

(3) 训练时无需并行或分片框架，从而能够在 80 GB GPU 显存内同时容纳最多四个 14B 模型，并实现图像扩散规模的 batch size。

具体而言，Helios 是一个 14B 的自回归扩散模型，采用统一的输入表示，天然支持 T2V、I2V 和 V2V 任务。为缓解长视频生成中的漂移问题，我们刻画了典型失效模式，并提出了简单但有效的训练策略，在训练过程中显式模拟漂移，同时从源头上消除重复运动。为了提升效率，我们对历史上下文和带噪上下文进行了大幅压缩，并减少了采样步数，从而使其计算成本可与 1.3B 视频生成模型相当，甚至更低。

此外，我们还提出了基础设施层面的优化，同时加速推理与训练并降低显存占用。大量实验表明，Helios 在短视频和长视频生成上都持续优于以往方法。我们计划开源代码、基础模型和蒸馏模型，以支持社区的进一步发展。

1 Introduction

14B 实时长视频生成模型可以比 1.3B 更便宜、更快，同时保持更强性能

------ Helios 团队

在过去一年里，扩散 Transformer 显著推动了视频生成的发展，并展现出作为世界模型的潜力。随着视频质量提升，各类应用对实时生成的需求也不断增加，同时对视频时长提出了更高要求------尤其是在游戏引擎和交互式生成场景中。然而，主流模型距离"实时且无限生成"仍相去甚远：它们通常只能生成 5 5 5-- 10 10 10 秒的视频，而即便是这样短的片段，也可能需要数十分钟来合成。

实时无限视频生成旨在以交互速度生成时间连贯、高质量的长视频，但这一目标在很大程度上仍未解决。一些社区方法声称实现了实时无限生成；然而，这些方法通常依赖 1.3 B 1.3\text{B} 1.3B 模型。此类模型容量有限，难以表达复杂运动，并且经常导致高频细节模糊。Krea-RealTime-14B 虽然增大了模型规模，但整体上仍沿用了相同范式，在单张 H100 GPU 上也只能达到 6.7 6.7 6.7 FPS。此外，这些方法往往依赖训练即推理式 rollout（Self-Forcing）来缓解漂移，这会显著增加训练成本，并促使人们进行步数蒸馏。更关键的是，对漂移的鲁棒性与训练时使用的 rollout 长度紧密耦合：当训练仅限于 5 5 5 秒片段时，推理一旦超过 5 5 5 秒范围，往往就会出现严重漂移。最后，这些基于因果掩码的长视频生成方法从根本上改变了双向预训练模型的推理机制，并可能限制可达到的质量上限。

为应对这些挑战，我们提出了 Helios，这是一套用于实时长视频生成的 14 B 14\text{B} 14B 方案，在单张 H100 GPU 上可达到最高 19.5 19.5 19.5 FPS------甚至比一些 1.3 B 1.3\text{B} 1.3B 模型还要快。具体而言：

(1) 面向无限生成，我们将长视频生成表述为通过统一历史注入（Unified History Injection）的无限视频续写，并引入表征控制（Representation Control）和引导注意力（Guidance Attention），以高效地将历史上下文注入到带噪上下文中。这一设计避免了因果掩码的局限，同时保留双向推理能力，并在单一架构中统一了 T2V、I2V 和 V2V。

(2) 面向高质量生成，我们识别出三种典型漂移表现：位置漂移、颜色漂移和复原漂移。基于这一分析，我们提出了简单但有效的策略，在训练中显式模拟漂移，从而在不依赖 self-forcing 或 error-banks 的情况下实现无漂移长视频生成。此外，我们还解决了旋转位置编码（RoPE）的周期性结构与多头注意力之间的冲突，从源头上消除了重复运动。

(3) 面向实时生成，为了去除历史上下文和带噪上下文中的冗余，我们提出了多项长期记忆分块（Multi-Term Memory Patchification）和金字塔统一预测校正器（Pyramid Unified Predictor Corrector），显著减少输入到 DiT 中的 token 数量。我们进一步将流匹配从"全分辨率噪声到全分辨率数据"的单一路径，重构为多条"低分辨率噪声到多分辨率数据"的轨迹，从而将计算量降低到与图像扩散模型相当、甚至更低的水平。我们还提出了对抗式分层蒸馏（Adversarial Hierarchical Distillation），这是一种纯教师强制的方法，仅使用自回归模型本身作为教师，将采样步数从 50 50 50 步减少到 3 3 3 步。结合面向显存效率和吞吐量的基础设施级优化，这些进展共同推动系统迈向实时视频生成。据我们所知，Helios 是首个在单张 H100 GPU 上达到 19.5 19.5 19.5 FPS 的 14 B 14\text{B} 14B 视频生成模型，在保持相当质量的同时实现了 128 × 128\times 128× 加速。

最后，为了解决实时长视频生成领域缺乏全面开源基准的问题，我们构建了 HeliosBench，其中包含 240 240 240 个提示词，覆盖四种时长区间：极短（ 81 81 81 帧）、短（ 240 240 240 帧）、中（ 720 720 720 帧）和长（ 1440 1440 1440 帧）。部分案例展示及基准结果见图 1 1 1、图 2 2 2 和图 3 3 3。

图1：在单张 H100 上，各种视频生成模型的端到端吞吐率（FPS）。结果是在相同分辨率下测得，并启用了所有官方加速技术，包括 FlashAttention、torch compile 和 KV-cache。Helios 相比同等规模的模型明显更快，并且达到了更小型蒸馏模型的速度水平。

图2：Helios 及其对比方法的基准性能。无论是在短视频生成还是长视频生成任务中，Helios 都持续优于现有的蒸馏模型，同时其性能与基础模型相当。

图3：Helios 生成的无限视频展示。尽管其开销与 1.3 B 1.3\text{B} 1.3B 模型 [59, 60, 90, 100, 126] 相当，Helios 在视觉质量、文本对齐以及运动动态方面仍然表现出色。

我们的贡献可以概括如下：

• 在不使用常见抗漂移策略（例如 self-forcing、error-banks、关键帧采样或反向采样）的情况下，Helios 能够生成分钟级视频，并保持高质量和强时间连贯性。

• 在不使用标准加速技术（例如 KV-cache、因果掩码、稀疏/线性注意力、TinyVAE、渐进式噪声调度、隐藏状态缓存或量化）的情况下，Helios 在单张 H100 GPU 上实现了 14 B 14\text{B} 14B 视频生成模型端到端推理 19.5 19.5 19.5 FPS。

• 我们提出了一系列优化，同时提升训练与推理吞吐量并降低显存占用。这些改动使得在无需并行或分片基础设施的前提下训练 14 B 14\text{B} 14B 视频生成模型成为可能，并实现与图像模型相当的 batch size。

• 为解决实时长视频生成缺乏标准化基准的问题，我们发布了 HeliosBench。大量实验表明，Helios 在质量上显著优于现有方法，同时推理速度甚至超过一些 1.3 B 1.3\text{B} 1.3B 蒸馏模型。

2.1 Long Video Generation

大多数视频生成模型仍然局限于短片段（通常为 5 5 5-- 10 10 10 秒），而在不发生漂移的情况下扩展到更长时长仍然颇具挑战。早期方法如 FreeNoise [70] 和 FIFO-Diffusion [40] 采用了无需训练的噪声重调度。随后的方法，包括 Diffusion Forcing [7] 和 Rolling Diffusion [71]，在训练期间对整个序列注入逐帧独立噪声，以模拟推理时上下文污染，从而通过自回归扩散 [77] 实现长视频合成。后续工作 [8, 84, 86] 又将这一范式扩展到更大规模的模型。FramePack [116] 训练了一个下一帧预测模型，并引入反向采样以减少漂移。Self-Forcing [34] 采用因果注意力 [107]，并提出了一种训练即推理的 rollout 策略来提升质量。最近的进展还进一步探索了误差库机制 [28, 45, 69]、类 GPT 架构 [13, 18, 58]、关键帧采样 [33, 96, 124]、测试时训练 [14, 128] 以及多镜头生成 [6, 29, 37]。尽管取得了这些进展，这些方法往往仍会在超出训练时域后表现出明显漂移，或者依赖代价高昂的长视频微调，这限制了它们在长视频生成中的实际应用价值。

2.2 Real-Time Video Generation

长视频生成需要高效的架构与推理流水线。例如，使用 Wan2.1 14B [90] 时，在单张 NVIDIA A100 GPU 上生成一个 5 5 5 秒视频通常需要约 50 50 50 分钟才能达到可接受的质量。常见的加速方向包括并行化、蒸馏 [52, 61, 106]、线性注意力 [9, 82, 101] 或稀疏注意力 [46, 99, 114]、隐藏状态缓存 [10, 55, 64] 以及量化 [95, 113, 115]。现有的实时长视频系统大多基于蒸馏；例如，[11, 26, 59, 60, 100] 沿用了 CausVid [107] 的路线，并使用 DMD [105] 将采样步数从 50 50 50 步减少到 4 4 4 步，同时结合类似 Self-Forcing [34] 的 rollout 策略来缩小训练与推理之间的差距。然而，这些方法通常建立在相对较小的骨干模型之上（例如 Wan2.1 1.3B [90]），这限制了它们对复杂运动的建模能力以及对高频细节的保留能力。此外，尽管 Krea [67] 报告称在单张 NVIDIA B200 GPU 上可达到 11 11 11 FPS，但其在 H100 GPU 上的速度会下降到 6.7 6.7 6.7 FPS，且生成结果存在严重漂移，这对实时交互式生成而言仍然是一个突出问题。另有一些工作声称实现了实时，但实际上需要 8 8 8 张 GPU [23, 78, 83]。

3 Helios

（1）面向无限生成，我们提出了统一历史注入（Unified History Injection），将一个双向预训练模型 [90] 转化为自回归生成器，从而在统一框架下同时支持文生视频（T2V）、图生视频（I2V）和视频生视频（V2V）。

（2）面向高质量生成，我们提出了 Easy Anti-Drifting 来缓解漂移，从而在无需低效的 self-forcing [34] 或 error-bank [45] 的情况下，实现高质量的分钟级视频生成。

（3）面向实时生成，我们进一步提出了深度压缩流（Deep Compression Flow），同时减少视觉 token 数量和采样步数，从而使 14B 模型能够在单张 GPU 上实现实时生成。

3.1 Unified History Injection

在本节中，我们介绍如何将一个原本仅限于固定长度生成的双向模型，扩展为能够合成任意时长视频的模型。整体架构如图 4 4 4 所示。

图4：Helios 的架构。Helios 是一个采用引导注意力模块（Guidance Attention blocks）构建的自回归视频扩散 Transformer。它通过多项长期记忆分块（Multi-Term Memory Patchification）和金字塔统一预测校正器（Pyramid Unified Predictor Corrector）对历史上下文和带噪上下文进行压缩，以降低计算开销，同时借助表征控制（Representation Control）在统一框架下整合文生视频（T2V）、图生视频（I2V）和视频生视频（V2V）任务。

3.1.1 Representation Control

以往工作通常通过将 diffusion forcing [7, 75] 与因果掩码 [107] 相结合，把双向模型转变为自回归生成器。然而，由此形成的逐帧噪声空间极其庞大，这会拖慢优化过程，并且往往需要进行步数蒸馏 [105, 106, 121]。这种方法之所以不理想，主要有两个原因：（i）推理过程与预训练模型的原始方式存在显著偏离，从而限制了可达到的性能；（ii）蒸馏模型会阻碍社区中的进一步开发。

我们通过表征控制（Representation Control）来解决这些问题，它将长视频生成表述为视频续写。如图 4 4 4 所示，输入由历史上下文 X H i s t ∈ R B × C × T H i s t × H × W X_{\mathrm{Hist}}\in\mathbb{R}^{B\times C\times T_{\mathrm{Hist}}\times H\times W} XHist∈RB×C×THist×H×W 和带噪上下文 X N o i s y ∈ R B × C × T N o i s y × H × W X_{\mathrm{Noisy}}\in\mathbb{R}^{B\times C\times T_{\mathrm{Noisy}}\times H\times W} XNoisy∈RB×C×TNoisy×H×W 的拼接组成，其中 B B B、 C C C、 T T T、 H H H 和 W W W 分别表示 batch size、通道数、帧数、高度和宽度。我们在训练和推理阶段都保持 T H i s t T_{\mathrm{Hist}} THist 和 T N o i s y T_{\mathrm{Noisy}} TNoisy 固定，并满足 T H i s t ≫ T N o i s y T_{\mathrm{Hist}}\gg T_{\mathrm{Noisy}} THist≫TNoisy。模型在以 X H i s t X_{\mathrm{Hist}} XHist 为条件的情况下对 X N o i s y X_{\mathrm{Noisy}} XNoisy 进行去噪，以生成时间上连贯的续写内容，从而实现任意长视频的生成。表征控制通过 X H i s t X_{\mathrm{Hist}} XHist 的表示形式实现任务的自动切换：如果 X H i s t X_{\mathrm{Hist}} XHist 全为零，则模型执行文生视频（T2V）；如果只有最后一帧非零，则执行图生视频（I2V）；否则执行视频生视频（V2V）。

3.1.2 Guidance Attention

历史上下文和带噪上下文具有不同的统计特性，因此应当区别对待。历史上下文包含已经与文本提示对齐的干净内容；它不应被去噪，也应当对 X N o i s y X_{\mathrm{Noisy}} XNoisy保持不敏感。相反，它的作用是引导 X N o i s y X_{\mathrm{Noisy}} XNoisy的去噪。我们通过两种方式显式地强化这种分离。首先，在整个去噪过程中，我们将 X H i s t X_{\mathrm{Hist}} XHist的时间步固定为 0 0 0，表示它始终保持干净且无噪声。其次，受[97, 123]启发，我们引入引导注意力（Guidance Attention），以增强历史上下文对未来帧生成的影响：

在自注意力层中，我们分别为带噪上下文和历史上下文计算 query、key 和 value 张量，分别记为 Q N o i s y , K N o i s y , V N o i s y Q_{\mathrm{Noisy}},K_{\mathrm{Noisy}},V_{\mathrm{Noisy}} QNoisy,KNoisy,VNoisy以及 Q H i s t , K H i s t , V H i s t Q_{\mathrm{Hist}},K_{\mathrm{Hist}},V_{\mathrm{Hist}} QHist,KHist,VHist。为了在保留有信息量的历史的同时抑制冗余或有害信号，我们引入按头的放大 token a m p amp amp 来调制历史 key。该设计会针对每个注意力头选择性地增强或减弱历史信息，从而鼓励模型聚焦于最具判别性的成分：

X S e l f = A t t e n t i o n ( [ Q N o i s y , Q H i s t ] , [ K N o i s y , K H i s t ⋅ a m p ] , [ V N o i s y , V H i s t ] ) X_{\mathrm{Self}}=\mathrm{Attention}([Q_{\mathrm{Noisy}},Q_{\mathrm{Hist}}],[K_{\mathrm{Noisy}},K_{\mathrm{Hist}}\cdot amp],[V_{\mathrm{Noisy}},V_{\mathrm{Hist}}]) XSelf=Attention([QNoisy,QHist],[KNoisy,KHist⋅amp],[VNoisy,VHist])

其中 [ ⋅ ] [\cdot] [⋅]表示拼接， ⋅ \cdot ⋅表示乘法。在交叉注意力中，我们将来自文本提示的语义信息注入模型。由于 X H i s t X_{\mathrm{Hist}} XHist已经整合了前面步骤中的语义信息，再次注入相同语义是冗余的。因此，我们只对 X N o i s y X_{\mathrm{Noisy}} XNoisy应用交叉注意力：

X C r o s s = A t t e n t i o n ( Q N o i s y , K T e x t , V T e x t ) X_{\mathrm{Cross}}=\mathrm{Attention}(Q_{\mathrm{Noisy}},K_{\mathrm{Text}},V_{\mathrm{Text}}) XCross=Attention(QNoisy,KText,VText)

其中 K T e x t K_{\mathrm{Text}} KText和 V T e x t V_{\mathrm{Text}} VText是编码后文本提示的 key 和 value 张量。

3.2 Easy Anti-Drifting

在本节中，我们总结了漂移的三种常见表现形式，如图 5 5 5 所示，并提出了一些简单但有效的技术，用于缓解长视频生成中的漂移和重复运动问题，而无需依赖 self-forcing [34]、error-bank [45] 或其他常用的抗漂移策略。

图5：长视频生成中三种具有代表性的漂移模式可视化。

3.2.1 Relative RoPE

漂移的一个主要来源是位置编码，我们将其称为位置漂移（Position Shift）。在实践中，扩散模型通常在推理时域与训练时域一致时表现最佳；一旦改变视频长度，模型就会暴露于未见过的时间位置，这会显著降低生成质量。现有长视频方法通常沿时间维使用绝对 RoPE。举例来说，生成一个 1440 1440 1440 帧视频时会使用索引 0 ⁣ : ⁣ 1399 0\!:\!1399 0:1399，而训练通常只限于短片段（例如 5 5 5 秒），因此即使采用了复杂的缓解方法，超出训练时域后的漂移仍然很可能发生。在更长视频上训练是一种直接但代价高昂的补救办法 [11, 59, 100]。

此外，绝对时间索引还可能导致生成过程反复跳回到早期位置，从而引起突兀的场景重置和周期性模式，我们将这种现象称为重复运动（repetitive motion）[12]。为了解决这些问题，我们提出了相对 RoPE（Relative RoPE）。无论目标视频长度是多少，我们都将 X H i s t X_{\mathrm{Hist}} XHist的时间索引范围约束为 0 ⁣ : ⁣ T H i s t 0\!:\!T_{\mathrm{Hist}} 0:THist，并将 X N o i s y X_{\mathrm{Noisy}} XNoisy分配到 T H i s t ⁣ : ⁣ T H i s t + T N o i s y T_{\mathrm{Hist}}\!:\!T_{\mathrm{Hist}}+T_{\mathrm{Noisy}} THist:THist+TNoisy。这种相对索引方式能够在任意长度下实现稳定生成，同时缓解 RoPE 周期性与多头注意力之间的相互作用，从源头上减少重复运动。

3.2.2 First-Frame Anchor

图6：正常视频与漂移视频在饱和度、审美评分和 RGB 统计量上的时间变化趋势。正常视频较为稳定，而漂移视频起初沿着相似轨迹变化，但随后会突然发生偏移，并持续处于不稳定状态。

漂移还常常表现为颜色漂移（Color Shift），并且随着生成视频变长而变得更加严重。为了刻画这一现象，我们通过跟踪随时间变化的饱和度、审美评分 [73] 以及 RGB 统计量（均值和方差），分析正常视频与发生漂移的视频。如图 6 6 6 所示，正常视频的统计量相对稳定，而漂移视频起初遵循相似的轨迹，但在某个时刻之后会发生剧烈偏移，并在此后持续不稳定。值得注意的是，漂移很少在生成开始阶段发生。受这一观察启发，我们在训练和推理过程中始终将第一帧保留在 X H i s t X_{\mathrm{Hist}} XHist中。作为一个全局视觉锚点，这一帧能够约束后续片段中的分布偏移，稳定随时间变化的统计量，并在自回归外推过程中有效缓解颜色漂移。

3.2.3 Frame-Aware Corrupt

漂移并不局限于颜色漂移；它也可能表现为图像复原伪影，例如模糊和噪声 [45]。我们将这一现象称为复原漂移（Restoration Shift）。这种偏移之所以出现，是因为模型在训练时使用的是干净视频，但在推理时却需要把自身并不完美的输出作为历史条件；因此，微小误差会随着时间不断累积并被放大。为了提升模型对不完美历史的鲁棒性，我们提出了逐帧感知扰动（Frame-Aware Corrupt），受 [7, 75] 启发，它在训练期间模拟真实的历史漂移。

具体来说，对于每一帧历史帧，我们独立采样以下扰动之一：

(i) 以概率 p c p_c pc，对帧曝光进行调整，调整幅度从 [ a min ⁡ , a max ⁡ ] [a_{\min},a_{\max}] [amin,amax]中均匀采样；

(ii) 以概率 p a p_a pa，添加噪声，噪声强度从 [ b min ⁡ , b max ⁡ ] [b_{\min},b_{\max}] [bmin,bmax]中均匀采样；

(iii) 以概率 p b p_b pb，先下采样再上采样，下采样因子从 [ c min ⁡ , c max ⁡ ] [c_{\min},c_{\max}] [cmin,cmax]中均匀采样；

(iv) 以概率 p d p_d pd，保持该潜变量为干净状态，

其中 p a + p b + p c + p d = 1 p_a+p_b+p_c+p_d=1 pa+pb+pc+pd=1。这些扰动是按帧独立采样的，因此包含 T H i s t T_{\mathrm{Hist}} THist帧的历史将产生 T H i s t T_{\mathrm{Hist}} THist个独立的损坏决策，这对于长视频稳定性至关重要。

3.3 Deep Compression Flow - From Token View

在本节中，我们从以 token 为中心的视角来介绍深度压缩流（Deep Compression Flow）。我们的目标是将一个 14B 视频生成模型在 token 层面的计算量降低到与 1.3B 模型相当的水平。

3.3.1 Multi-Term Memory Patchification

为了实现实时生成，我们通过多项长期记忆分块（Multi-Term Memory Patchification）来减少历史上下文 X H i s t X_{\mathrm{Hist}} XHist中的冗余。受先前工作 [25, 116, 125] 启发，我们利用了一个简单观察：在自回归视频生成中，对未来帧的预测主要依赖于时间上邻近的历史，以建模局部运动和短程连续性，而较远的历史主要提供粗粒度的全局上下文。

基于这一观察，我们采用了一个分层上下文窗口，将 X H i s t X_{\mathrm{Hist}} XHist划分为三部分------短期、中期和长期------分别包含 T 1 T_1 T1、 T 2 T_2 T2和 T 3 T_3 T3帧，其中 0 < T 1 < T 2 < T 3 0<T_1<T_2<T_3 0<T1<T2<T3。对于每一部分，我们施加一个独立的卷积核 ( p t ( i ) , p h ( i ) , p w ( i ) ) (p_t^{(i)},p_h^{(i)},p_w^{(i)}) (pt(i),ph(i),pw(i))来压缩时空 token，其中 i ∈ { 1 , 2 , 3 } i\in\{1,2,3\} i∈{1,2,3}表示这三部分。我们让压缩率随着时间距离增大而提高，例如， p t ( 1 ) < p t ( 2 ) < p t ( 3 ) p_t^{(1)}<p_t^{(2)}<p_t^{(3)} pt(1)<pt(2)<pt(3)， p h ( 1 ) < p h ( 2 ) < p h ( 3 ) p_h^{(1)}<p_h^{(2)}<p_h^{(3)} ph(1)<ph(2)<ph(3)，并且 p w ( 1 ) < p w ( 2 ) < p w ( 3 ) p_w^{(1)}<p_w^{(2)}<p_w^{(3)} pw(1)<pw(2)<pw(3)。经过分块后，token 数量变为：

L s h o r t = T 1 H W p t ( 1 ) p h ( 1 ) p w ( 1 ) , L m i d = T 2 H W p t ( 2 ) p h ( 2 ) p w ( 2 ) , L l o n g = T 3 H W p t ( 3 ) p h ( 3 ) p w ( 3 ) . L_{\mathrm{short}}=\frac{T_1HW}{p_t^{(1)}p_h^{(1)}p_w^{(1)}},\qquad L_{\mathrm{mid}}=\frac{T_2HW}{p_t^{(2)}p_h^{(2)}p_w^{(2)}},\qquad L_{\mathrm{long}}=\frac{T_3HW}{p_t^{(3)}p_h^{(3)}p_w^{(3)}}. Lshort=pt(1)ph(1)pw(1)T1HW,Lmid=pt(2)ph(2)pw(2)T2HW,Llong=pt(3)ph(3)pw(3)T3HW.

于是， X H i s t X_{\mathrm{Hist}} XHist中的 token 总数为：

$$

L_{\mathrm{total}}

HW\left(

\frac{T_1}{p_t^{(1)}p_h{(1)}p_w^{(1)}}

\frac{T_2}{p_t^{(2)}p_h{(2)}p_w^{(2)}}

\frac{T_3}{p_t^{(3)}p_h{(3)}p_w^{(3)}}

\right).

如图 7 7 7 所示，这一设计使得 L t o t a l L_{\\mathrm{total}} Ltotal与目标视频长度无关，保持为常数。因此，在固定 token 预算下，模型能够保留显著更长的历史，同时降低训练和推理期间的计算成本与显存占用。在训练过程中，我们会随机将历史上下文中的一定比例置零，以模拟推理时的 T2V、I2V 和 V2V 场景。 ![图7](https://i-blog.csdnimg.cn/img_convert/c62baa9c1a38dca9f1f1130b2d74fd2c.png) > 图7：利用多项长期记忆分块（Multi-Term Memory Patchification）实现开销降低。分层历史窗口采用逐步增大的卷积核，在扩展上下文长度的同时保持 token 预算恒定。 #### 3.3.2 Pyramid Unified Predictor Corrector *** ** * ** *** 为了减少带噪上下文 X N o i s y X_{\\mathrm{Noisy}} XNoisy中的冗余，我们提出了金字塔统一预测校正器（Pyramid Unified Predictor Corrector），这是统一预测校正器（UniPC）采样器 \[119\] 的一个多尺度变体，如图 8 8 8 所示。受先前工作 \[24, 38, 58, 87, 88\] 启发，我们观察到，早期采样步骤主要受强噪声主导，因此主要决定全局结构（例如布局和颜色）；而后期步骤则主要细化局部细节（例如边缘和纹理）。据此，我们采用由粗到细的调度方式：在早期阶段，我们在低分辨率潜空间中采样，并逐步过渡到全分辨率。具体而言，Helios 学习多尺度速度场，用以定义一个基于 ODE 的生成过程。我们从低分辨率高斯噪声 ϵ ∈ R B × C × T × h × w \\epsilon\\in\\mathbb{R}\^{B\\times C\\times T\\times h\\times w} ϵ∈RB×C×T×h×w出发，积分该 ODE，得到一条由粗到细的轨迹，并逐步上采样，最终得到全分辨率的干净样本 x 0 ∈ R B × C × T × H × W x_0\\in\\mathbb{R}\^{B\\times C\\times T\\times H\\times W} x0∈RB×C×T×H×W，其中 h ≪ H h\\ll H h≪H且 w ≪ W w\\ll W w≪W。 训练。我们将生成过程划分为 K K K个空间分辨率逐步升高的阶段，其中第 k k k个阶段在分辨率 ( h k , w k ) (h\^k,w\^k) (hk,wk)下运行。为了学习从尺度 k − 1 k-1 k−1到尺度 k k k的直接传输方向，我们构造一条线性插值路径，作为这两个尺度之间的连续过渡： x t k = ( 1 − λ t ) x k + λ t   U p ( x k − 1 ) , x_t\^k=(1-\\lambda_t)x\^k+\\lambda_t\\,\\mathrm{Up}(x\^{k-1}), xtk=(1−λt)xk+λtUp(xk−1), 其中 k ∈ { 1 , 2 , ... , K } k\\in\\{1,2,\\ldots,K\\} k∈{1,2,...,K}， λ t ∈ \[ 0 , 1 \] \\lambda_t\\in\[0,1\] λt∈\[0,1\]控制噪声水平。我们在各个阶段使用相同的 λ t \\lambda_t λt调度，以保证跨尺度的流匹配保持一致。与 λ t \\lambda_t λt相关联的时间步 T ∈ \[ 0 , 1000 \] T\\in\[0,1000\] T∈\[0,1000\]被划分为阶段边界 T 0 = 1000 \> T 1 \> ⋯ \> T K = 0 T_0=1000\>T_1\>\\cdots\>T_K=0 T0=1000\>T1\>⋯\>TK=0，因此第 k k k个阶段仅在区间 \[ T k , T k − 1 \] \[T_k,T_{k-1}\] \[Tk,Tk−1\]上运行。对于边界条件，当 k = 1 k=1 k=1时，我们从噪声开始，即 U p ( x k − 1 ) = ϵ \\mathrm{Up}(x\^{k-1})=\\epsilon Up(xk−1)=ϵ，其中 ϵ ∼ N ( 0 , I ) \\epsilon\\sim\\mathcal{N}(0,I) ϵ∼N(0,I)；当 k = K k=K k=K时，我们恢复出全分辨率样本，即 x k = x 0 x\^k=x_0 xk=x0。沿着这条线性路径，真实速度为常数： v k = x k − U p ( x k − 1 ) . v\^k=x\^k-\\mathrm{Up}(x\^{k-1}). vk=xk−Up(xk−1). 我们将速度场参数化为 u θ k ( ⋅ ) u_\\theta\^k(\\cdot) uθk(⋅)，并最小化如下速度匹配目标： ##

\mathcal{L}

\mathbb{E}{k,\lambda_t,x_t^{k,\mathrm{Up}(x}{k-1}),y}
\left[
\left|
u \theta^k(x_tk,y,\lambda_t,k)-v^k

\right|_2^2

\right],

其中 y y y表示条件输入。在实践中，我们设置 K = 3 K=3 K=3，以平衡质量和效率。 推理。类似地，我们将采样过程也划分为 K K K个阶段，并为每个阶段分配 ( N 1 , N 2 , ... , N K ) (N_1,N_2,\\ldots,N_K) (N1,N2,...,NK)个步骤，因此总步数为 N = ∑ k = 1 K N k N=\\sum_{k=1}\^K N_k N=∑k=1KNk。在第 k k k个阶段，我们在离散时间步 { t k n } n = 0 N k \\{t_k\^n\\}_{n=0}\^{N_k} {tkn}n=0Nk上采样，并按如下方式更新： ##

x_{t_k^n}k

x_{t_k^{n-1}}k

u_\theta^{k!\left(x_{t_k}{n-1}}^k,y,t_k{n-1}\right)

\left(t_k^n-t_k{n-1}\right).