Diffusion Models与视频超分(3): 解读当前最快和最强的开源模型FlashVSR

Diffusion Models专栏文章汇总：入门与实战
前言：FlashVSR 是首个实现近实时（17 FPS）、流式处理、支持 1440p 的扩散视频超分辨率模型，通过三阶段蒸馏、局部稀疏注意力和微型条件解码器，兼顾速度、质量与可扩展性。

[阶段 1：联合图像-视频训练（Full-Attention Teacher）](#阶段 1：联合图像-视频训练（Full-Attention Teacher）)

[阶段 2：因果稀疏注意力适配（Causal Sparse Attention Adaptation）](#阶段 2：因果稀疏注意力适配（Causal Sparse Attention Adaptation）)

[阶段 3：单步蒸馏（One-Step Distillation via DMD）](#阶段 3：单步蒸馏（One-Step Distillation via DMD）)

[局部约束稀疏注意力（Locality-Constrained Sparse Attention）](#局部约束稀疏注意力（Locality-Constrained Sparse Attention）)

[微型条件解码器（Tiny Conditional Decoder, TC Decoder）](#微型条件解码器（Tiny Conditional Decoder, TC Decoder）)

随着移动视频和在线流媒体日益普及，人们对能够实时处理高分辨率、无限长度视频的VSR系统提出了更高要求。但实现高分辨率、高质量且支持实时流式处理的视频超分辨率，尤其是基于扩散模型的VSR，仍然极具挑战性，主要有三大主要障碍：

(1) 分块处理的高前瞻延迟（lookahead latency）：受限于内存，大多数方法将长视频切分为重叠的片段并独立处理，这不仅在重叠帧上引入了冗余计算，还因需等待整个片段处理完毕而造成较高的前瞻延迟；

(2) 密集3D注意力机制的高昂计算成本：为获得更优视觉质量，大多数视频生成模型采用全时空注意力机制，其计算复杂度与分辨率呈平方关系，对于长时长、高分辨率视频而言计算开销难以承受；

(3) 训练-测试分辨率差距问题：大多数基于注意力的VSR模型在中等分辨率视频上训练，但应用于更高分辨率（如1440p）时性能显著下降。我们的分析表明，这一差距源于训练与推理阶段位置编码范围不匹配。

✅ 此阶段得到一个高质量但计算昂贵的"教师模型"。

✅ 此阶段输出一个 稀疏+因果 的中间模型，可流式推理但仍是多步扩散。

✅ 最终得到 单步、流式、高质量 的 FlashVSR 主干模型。

问题：当推理分辨率（如 1440p）远高于训练分辨率（如 540p）时，RoPE（旋转位置编码）会出现周期性重复，导致注意力混乱 → 图像模糊、纹理重复。

对每个 query 的注意力范围施加 空间局部窗口约束 （local window）。
- 例如：每个 token 只在 ±64 像素邻域内计算注意力。
效果：
- 推理时的位置偏移范围 ≈ 训练时范围 → 对齐 RoPE 的有效区间。
- 避免远距离错误匹配 → 提升高分辨率泛化能力。
实现：在稀疏注意力的 top-k 块选择后，进一步限制每个块内的空间范围。

实验表明：该设计显著改善 1440p 推理质量，消除重复纹理（见 Fig. 3）。

问题：3D VAE 解码器占推理时间 70%，成为瓶颈（11.13s / 101 帧）。

为支持大规模训练，作者构建了新数据集：