学习视频超分辨率扩散模型中的空间适应和时间相干性（原文翻译）

文章目录

- 摘要
- [1. Introduction](#1. Introduction)
- [2. Related Work](#2. Related Work)
- [3. Our Approach](#3. Our Approach)
- - [3.1. Video Upscaler](#3.1. Video Upscaler)
  - [3.2. Spatial Feature Adaptation Module](#3.2. Spatial Feature Adaptation Module)
  - [3.3. Temporal Feature Alignment Module](#3.3. Temporal Feature Alignment Module)
  - [3.4. Video Refiner](#3.4. Video Refiner)
  - [3.5. Training Strategy](#3.5. Training Strategy)
- [4. Experiments](#4. Experiments)
- - [4.1. Experimental Settings](#4.1. Experimental Settings)
  - [4.2. Comparisons with State-of-the-Art Methods](#4.2. Comparisons with State-of-the-Art Methods)
  - [4.3. Model Analysis](#4.3. Model Analysis)
- [5. Conclusions](#5. Conclusions)

摘要

扩散模型只是在图像超分辨率任务的临界点上。然而，利用扩散模型进行视频超分辨率并非易事，这不仅需要将视觉外观从低分辨率视频保存到高分辨率视频，还需要保留视频帧之间的时间一致性。在本文中，我们提出了一种新的方法，追求空间适应和时间相干性(SATeCo)，用于视频超分辨率。SanteCo 专注于从低分辨率视频中学习时空指导，以校准潜在空间高分辨率视频去噪和像素空间视频重建。从技术上讲，SATeCo 冻结了预训练的 UNet 和 VAE 的所有参数，并且在 UNet 和 VAE 的解码器中只优化了两个有意设计的空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块。SFA通过自适应估计每个像素的仿射参数来调节帧特征，保证了高分辨率帧合成的像素级指导。TFA 通过 self-attention 深入研究 3D 局部窗口 (tubelet) 中的特征交互，并在 tubelet 与其低分辨率对应物之间执行交叉注意力以指导时间特征对齐。在 REDS4 和 Vid4 数据集上进行的大量实验证明了我们方法的有效性。

Paper：https://arxiv.org/abs/2403.17000

1. Introduction

近年来，扩散模型[11,36,37,55]在革命图像生成方面取得了很大的进展。在其中，一系列图像超分辨率工作[36,46,52]受益于利用嵌入在扩散模型中的知识先验将低分辨率(LR)图像升级为高分辨率(HR)图像。与 2D 图像相比，视频具有更多的时间维度，在利用视频超分辨率 (VSR) 的扩散模型时带来了更多挑战。一种自然的方法是利用预先训练的扩散模型进行图像超分辨率(ISR)，例如StableSR[46]来放大每个视频帧。代表性的进步[46,52]表明，ISR的扩散模型可以比传统的回归模型(如VRT[23])合成更多的细节。如图 1 所示，Stabler 生成的建筑物中窗口的边缘比 VRT 生成的边缘要清晰得多。然而，扩散模型的固有随机性可能会危及空间保真度并幻觉一些额外的视觉内容。此外，独立的逐帧超分辨率忽略了连续帧之间的关系，导致高分辨率视频中的帧不一致问题。例如，图 1 中的交通标志在 StabLSR 生成的两个相邻帧之间完全不同。

图1。通过使用StableSR[46]、VRT[23]和我们的SATeCo的不同方法生成两个相邻的帧来说明视频超分辨率。放大视图中呈现相同局部位置的区域。

一般来说，探索视频超分辨率扩散模型的困难源于两个方面：1）如何缓解扩散过程中的随机性以保持视觉外观。2)如何保证HR视频中跨帧的时间一致性。我们建议通过从低分辨率视频中学习时空指导来解决这两个问题，以管理视频超分辨率的扩散过程。为了调节空间适应，我们估计LR帧特征上的仿射参数，以调制HR帧中的每个像素。因此，像素级指导被用来很好地学习HR帧中每个像素的特征，并更好地提高空间保真度。为了在时间上协同视频帧，我们加强了 HR 帧之间的特征交互，并通过注意力机制增强了 HR 帧和 LR 帧之间的特征校准。此外，通过对 3D 局部窗口 (tubelet) 内的特征进行自我注意和交叉注意，从而促进了时间特征对齐，从而获得了较大的感受野。

为了具体化我们的想法，我们提出了一种新的 SCECo 方法来执行视频超分辨率的空间适应和时间连贯性。从技术上讲，SATeCo 使用基于转换器的视频升级器对输入 LR 视频进行上采样。然后，VAE 编码器提取 LR 视频的视频特征和潜在代码，并进一步用于扩散校准。SanteCo故意设计了空间特征自适应(SFA)和时间特征对齐(TFA)模块，并将这两个模块插入到UNet和VAE的每个解码器块中，用于潜在空间视频去噪和像素空间视频重建。在潜在空间视频去噪的正则化中，SFA 在每个上采样的 LR 帧的潜在代码上利用两个卷积层来预测尺度和偏差来调节 HR 帧的像素级特征。TFA首先在小管内的 HR 视频潜在代码上执行自注意力以增强特征交互，并进一步在 Tubelet 与其 LR 对应物之间进行交叉注意力，用于 HR 视频中的特征校准。LR视频特征以相同的方式利用，在像素空间视频重建中调节HR视频特征学习。SanteCo 最后通过神经网络参考上采样的 LR 视频来细化解码后的 HR 视频，以平衡合成质量和保真度。

本文的主要贡献是提出了SATeCo来探索视频超分辨率扩散模型中的空间适应和时间相干性。该解决方案还引出了一个优雅的观点，即如何利用LR视频中的像素级信息进行视觉外观保存，以及如何在HR视频生成中实现帧一致性。在REDS4和Vid4上的大量实验表明，SATeCo在空间质量和时间一致性方面的优越性。

视频超分辨率。现代VSR方法主要基于深度神经网络，可以分为两类，即基于滑动窗口的方法和递归方法。早期的基于滑动窗口的VSR技术[1,22,50,51,53]依赖于2D或3D cnn[19,20]，它结合了一系列LR帧来预测中心HR帧。为了充分利用相邻帧之间的互补信息，采用可变形卷积[43,48]进行特征对齐。受变压器架构在各种计算机视觉任务中的成功启发[6，27-29]，自我注意被整合到VSR框架中[14，23，26，47]。一个代表性是VRT[23]，它将时间相互注意块插入到变压器主干中，以促进运动估计、特征对齐和融合。然而，基于滑动窗口的方法很难捕获远程依赖，这可能会限制视频超分辨率的性能。与在短期内聚合来自相邻帧的信息相比，循环方法 [2, 3, 15, 17, 18, 24, 38, 39, 54] 利用隐藏状态将所有前一帧的信息顺序传播到当前帧，有利于帧恢复。例如，Chan等人[2]采用了一种具有基于流的特征对齐的双向传播方案，以最大化超分辨率中的信息收集。尽管循环模型在时间信息收集方面具有很大的能力，但当 LR 视频在长时间范围内遇到显着退化时，仍然很难恢复局部细节。

超分辨率的扩散模型。扩散模型实现的图像合成令人印象深刻的性能 [7, 11, 16, 30, 34, 55] 鼓励在图像超分辨率上部署。这些探索[9，10，13，21，31，42，49，57]利用嵌入在预训练扩散模型中的知识先验来放大图像。例如，StableSR[46]在不改变预先训练的权重的情况下，将时间感知编码器集成到Stable-Diffusion[36]模型中，并取得了良好的效果。为了进一步增强图像纹理细节的重建，Yang等人[52]引入了一个基于注意力的控制模块来保持LR和HR图像之间的像素一致性。与优化一小部分插入参数的进展不同，几种方法[13，21，49]固定预训练合成模型中的所有权重，并尝试将约束合并到反向扩散过程中以指导图像恢复。尽管知识先验的有效性已在各种基于扩散的 ISR 方法中体现出来，但将扩散模型用于视频超分辨率并保持空间保真度和时间一致性仍然是一个重大挑战。

总之，我们的工作主要集中在视频超分辨率的扩散模型上。SanteCo 的提议不仅通过探索如何通过调制 HR 帧特征来保持空间保真度，而且还研究如何使用 LR 对应物校准 HR 视频特征以获得更好的时间特征对齐。

3. Our Approach

在本节中，我们将介绍我们新提出的SATeCo，在视频超分辨率的扩散模型中追求空间适应和时间相干性。图 2 描述了架构的概述。SanteCo 从视频升级器开始，以提高输入 LR 视频的分辨率。然后，将上采样的视频输入 VAE 编码器进行视频特征提取和潜在代码预测。之后，利用空间特征自适应(SFA)和时间特征对齐(TFA)模块学习LR视频潜在代码和特征的时空指导，校准潜在空间视频去噪和像素空间视频重建。因此，这两个模块被插入到 UNet 和 VAE 中解码器的每个块中。在视频潜在代码去噪过程中，SFA估计LR视频潜在代码上的仿射参数，以调制HR视频潜在代码的每个像素。TFA首先在 Tubelet 中的 HR 视频潜在代码上执行自注意力，并通过在 Tubelet 与其 LR 对应物之间执行交叉注意力进一步增强潜在代码。同样，在 VAE 解码器中进行 SFA 和 TFA，以使用 LR 视频特征指导 HR 视频重建。最后，SATeCo设计了一个视频细化器，通过参考上采样的视频来调整解码后的HR视频，以便在合成质量和保真度之间进行良好的权衡。

图2。我们的SATeCo体系结构的概述。输入LR视频XL首先通过基于变压器的视频升级器上采样到目标分辨率。然后，将上采样的视频Xu输入到VAE编码器中，提取视频特征和潜在代码Z。接下来，根据扩散调度器将高斯噪声添加到Z中，然后利用UNet恢复噪声视频潜码进行质量增强。在潜在空间中，潜在编码器在LR潜在代码Z上提取LR潜在特征图G，然后在UNet的每个解码器块中提取空间特征自适应(SFA)和时间特征对齐(TFA)模块进行时空引导学习。给定去噪的视频潜码Z0，VAE解码器根据SFA和TFA在LR视频特征上学习到的指导对视频Xd进行解码。最后，通过参考Xu得到最终的HR视频XH合成，通过视频细化器调整解码后的视频Xd。

3.1. Video Upscaler

大多数现有的VSR方法[39,51]首先通过重采样操作对输入LR视频进行升级，然后提高其视觉质量。然而，广泛采用的重采样操作，例如双线性采样和双三次采样，可能会破坏 LR 帧中的原始视觉模式 [39]，从而对后续的视频增强产生负面影响。因此，我们利用神经网络特征学习[4]提前减少帧退化的方法，提出了一种视频升级器，通过扩散模型生成更准确的上采样视频，以实现以下质量增强。

给定输入 LR 视频 XL，我们利用基于转换器的视频升级器进行视频放大，如图 3(a) 所示。它由两个级联的时间相互自注意力 (TMSA) 块 [23] 组成，用于时间聚合视频特征，以及一个像素混洗层 [40]，通过特征重塑来增加视频空间分辨率。然后将具有 L 帧的上采样视频 X u = { x u i } i = 1 L X_u = \{x^i_u\}^L_{i=1} Xu={xui}i=1L 输入到扩散模型中进行视频质量增强。

图 3. (a) 视频升级器的图示，(b) 视频细化器，( c ) 空间特征适应和 (d) 时间特征对齐模块。

3.2. Spatial Feature Adaptation Module

扩散模型的固有随机性[52]可能导致图像超分辨率中纹理细节的失真。采用扩散模型进行超分辨率的一种自然方法是通过基于卷积[46]或基于变压器的[52]结构来学习空间级条件，以指导UNet中的潜在代码去噪。这种机制只管理潜在空间中的特征正则化，发布难度来学习足够的归纳偏差，并为高分辨率图像恢复提供精确的指导。视频超分辨率也存在类似的问题。为了缓解这种情况，我们引入了一个空间特征自适应(SFA)模块，该模块从输入LR视频中动态学习像素引导进行扩散校准。同时，SFA模块强调了潜在空间视频去噪(即UNet的训练)和像素空间视频重建(即VAE的训练)的归纳偏差学习。

图3( c )说明了我们的SFA模块。给定上采样的 LR 视频 X u X_u Xu，VAE 编码器首先将 X u X_u Xu 编码为视频潜在代码 Z = { z i } i = 1 L Z = \{z^i \}^L_{i=1} Z={zi}i=1L。接下来，我们利用基于卷积的潜在编码器 ε z \varepsilon z εz 来提取 LR 潜在特征图 G = ε z ( Z ) G = \varepsilon_z (Z) G=εz(Z)，并进一步用于指导 UNet 解码器中的 HR 特征学习。形式上，我们将UNet中的HR中间特征图和潜在编码器中LR潜在特征图分别表示为 F = { f i } L i = 1 F = \{f^i\}L{i=1} F={fi}Li=1和 G = { g i } L i = 1 G = \{g^i\}L_{i=1} G={gi}Li=1。对于第 i 帧，我们通过两个 2D 卷积层测量 HR 中间特征图 f i ∈ R H × W × C f^i ∈ R^{H×W ×C} fi∈RH×W×C 的每个像素的尺度比 S i ∈ R H × W × C S^i ∈ R^{H×W ×C} Si∈RH×W×C 和偏置 M i ∈ R H × W × C M^i ∈ R^{H×W ×C} Mi∈RH×W×C：

然后，通过对 S i S^i Si和 M i M^i Mi的归一化HR中间特征图 f ~ i \tilde f^i f~i调制，生成UNet中输出的HR特征 f ~ i \tilde f^i f~i为:

其中⊙表示逐点乘法。 μ i μ^i μi 和 σ i σ^i σi 是特征图 f i f^i fi 的均值和标准差值。因此，在LR视频的潜在特征图上估计的仿射参数在潜在代码去噪中校准HR视频的中间特征图，自适应地将像素级信息注入到视频潜在代码中，以保持视觉外观。对于像素空间中的视频特征学习，将SFA模块插入到VAE解码器的每个块中。同样，将LR视频提取的视频特征作为估计SFA模块中仿射参数的指导，调整HR视频特征学习进行视频重建。我们从SFA模块中获取所有调制的中间特征映射 f ~ i \tilde f^i f~i为 F ~ i = { f i } i = 1 L \tilde F^i = \{f^i\}^L_{i=1} F~i={fi}i=1L，用于UNet和VAE解码器中的以下时间特征对齐。

3.3. Temporal Feature Alignment Module

用于视频超分辨率的帧明智导电ISR模型可以放大跨帧模糊模式[39]的差异，导致物体形状变形等内容不一致。该问题仅仅依靠空间级超分辨率，缺乏跨帧的时间相干建模。为了便于视频超分辨率中的视觉内容对齐，在UNet和VAE解码器中每个SFA模块之后设计了一个时间特征对齐(TFA)模块，用于时间特征交互和校准。

图 3(d) 描述了 TFA 模块的学习过程。给定UNet解码器中SFA模块的输入HR中间特征 F ~ = { f i } i = 1 L \tilde F = \{f^i\}^L_{i=1} F~={fi}i=1L，我们首先将每一帧的特征映 f ~ i \tilde f^i f~i划分为N个不重叠的窗口，空间分辨率为h × w。 N = H W h w N = \frac{HW}{hw} N=hwHW 是总窗口数。然后，我们将 L 帧局部窗口中的所有特征连接起来，形成一个 HR 特征 Tubelet F ~ t u b ∈ R L × h × w × C \tilde F_{tub} ∈ R^{L×h×w×C} F~tub∈RL×h×w×C。我们将每个 HR 特征 Tubelet 的维度重塑为 hwL × C 并在其上执行标准的自注意力：

其中 Q 、 K 、 V ∈ R h w L × C Q、K、V ∈ R^{hwL×C} Q、K、V∈RhwL×C 分别是查询矩阵、键和值矩阵。它们中的每一个都由 3D 卷积层预测。在 HR 特征 Tubelet 上进行的自注意力可以跨不同帧进行特征交互，减轻局部区域的时间特征错位。为了进一步进行时间特征校准，我们利用 HR 特征 Tubelet 的对应，即 LR 潜在特征图的特征 Tubelet Gtub 作为特征调整的参考。我们在 F ^ t u b \hat F_{tub} F^tub 和 G t u b G_{tub} Gtub 之间执行交叉注意力以获得输出特征 Tubelet F ‾ t u b \overline F_{tub} Ftub：

其中查询 Q' 在 HR 特征 Tubelet F ^ t u b \hat F_{tub} F^tub 上学习，键/值 K'/V ' 分别通过 3D 卷积层在 LR 对应物上估计。我们从 TFA 模块中收集所有输出特征小管，并将它们重塑为原始大小，如 F ‾ ∈ R L × H × W × C \overline F ∈ R^{L×H×W ×C} F∈RL×H×W×C。然后将输出特征 ̄F 输入 UNet 或 VAE 中解码器的下一个块以进行视频潜在去噪或重建。

通过这种方式，UNet 和 VAE 解码器中的耦合 SFA 和 TFA 模块不仅强调用于视觉外观保存的像素特征适应，而且还加强了时间特征交互和校准以进行时间相干建模。

3.4. Video Refiner

最近的进步 [8] 表明，通过以视觉内容为条件的扩散模型合成的图像可能会丢失局部区域中的一些原始颜色信息。为了解决这个问题，Stabler [46] 执行非参数后处理器来细化生成，参考原始输入以实现颜色保存。相反，我们提出了一种可训练的视频细化器，通过利用上采样 LR 视频的信息来强调来自 VAE 解码器解码 HR 视频的调整。

图 3(b) 详细说明了我们的视频细化器的结构。我们首先沿通道维度连接解码的视频 X d X_d Xd 和上采样的 LR 视频 X u X_u Xu，然后将其馈送到残差块中。通过融合 X u X_u Xu、 X d X_d Xd和残差块的输出特征映射来生成精化的HR视频 X H X_H XH：

其中 w 是权衡参数。所设计的视频细化器通过特征融合学习平衡了上采样LR视频的原始视觉内容和解码后的HR视频的合成内容。因此，我们的设计在颜色保存方面更强大，并且在合成质量和保真度之间取得了良好的平衡。

3.5. Training Strategy

我们基于稳定扩散[36]模型构建了用于视频超分辨率的SATeCo。有四个训练阶段来优化整个架构。在第一阶段，我们使用Charbonnier损失[5]训练视频升级器来优化HR视频的视频重建。之后，我们遵循 [36] 中的标准设置来训练 UNet 以优化插入的 SFA 和 TFA 模块。我们修复了 UNet 的所有参数，除了训练期间的两种模块。对于 VAE 解码器中 SFA 和 TFA 模块的优化，我们将 HR 视频的视频潜在代码作为输入，并优化解码视频和真实 HR 视频之间的相似性。最后，我们冻结视频升级器、UNet 和 VAE 中的所有参数，并使用解码和真实 HR 视频对训练视频细化器。

4. Experiments

4.1. Experimental Settings

数据集。我们在两个广泛使用的数据集上凭经验评估了我们的 SCECo 的有效性：REDS [33] 和 Vid4 [25]。REDS 数据集由 240、30 和 30 个视频剪辑组成，用于训练、验证和测试。每个视频剪辑包含100帧，分辨率为1,280 × 720。我们采用[2,3,48]中的标准协议，从验证集中选择四个视频片段作为测试数据，即REDS4。Vid4数据集还包括四个视频片段，每个片段大约有40帧，分辨率为720 × 480。按照标准设置[3,23]，我们使用Vid4中的所有视频进行评估，并选择Vimeo-90K[51]训练集中的视频数据进行模型优化。有 64、612 个训练片段，每个片段有 7 帧，分辨率为 448 × 256。

实施细节。我们使用 Diffusers [44] 库在 PyTorch 平台上实现我们的 SCECo。噪声调度器设置为线性调度器（ β 1 = 0.00085 ， β T = 0.0120 ， T = 1 , 000 β_1 = 0.00085，β_T = 0.0120，T = 1, 000 β1=0.00085，βT=0.0120，T=1,000）。通过交叉验证确定获胜视频细化器的权衡参数为 0.5。我们根据经验将TFA中的窗口大小设置为h = 8, w = 8。输入剪辑的帧号L为6。该模型使用AdamW优化器进行训练，学习率为 5.0 × 1 0 − 5 5.0 × 10^{−5} 5.0×10−5。

评估指标。我们通过两种指标（即基于像素和基于感知的指标）评估 VSR 模型。基于像素的指标包括 PSNR 和 SSIM，用于计算生成的 HR 视频和真实 HR 视频之间每个像素的相似度。还有一些基于感知的超分辨率评估指标。这些指标主要从人类感知偏好的角度测量视频质量，本文采用LPIPS[56]、DISTS[12]、NIQE[32]和CLIP-IQA[45]。具体来说，LPIPS利用VGG[41]模型提取帧特征，并测量合成视频和地面真实视频之间的特征相似度。DISTS 还通过 VGG 模型的变体计算视频对之间的特征相似度，但重点是图像纹理。对于 NIQE 和 CLIP-IQA，分数由学习模型直接预测，而不使用真实 HR 视频。NIQE通过CLIP模型[35]测量合成帧和真实图像集[32]之间的特征分布的相似性，而CLIP-IQA通过CLIP模型[35]计算生成的帧和文本提示(如"高分辨率")之间的余弦相似度。此外，我们进行了一项用户研究，以验证人类对不同模型的偏好。

4.2. Comparisons with State-of-the-Art Methods

我们在REDS4和Vid4数据集上将我们的SATeCo与几种最先进的技术进行了比较，包括双三次内插、StableSR[46]、TOFlow[51]、EDVR-M[48]、BasicVSR[2]、VRT[23]和IconVSR[2]。

定量评估。表 1 总结了不同 VSR 方法在两个数据集的六个指标方面的性能。总体而言，SATeCo 在 REDS4 上在所有基于感知的指标（即 LPIPS、DISTS、NIQE 和 CLIP-IQA）中取得了最佳性能。这些指标强调了人类感知方面的质量判断，结果证明了在预训练的扩散模型中利用丰富的知识先验来生成具有更好的视觉感知的高质量 HR 视频的优势。在基于像素的指标方面，最近的进展[46,52]表明，扩散模型的随机性可能会损害HR视频中视觉外观的保存，导致性能低于传统的回归模型。我们的SATeCo通过利用LR视频的像素级指导来调节HR帧特征合成，缓解了缺点，获得了31.62dB的PSNR。值得注意的是，这种性能与IconVSR[2]非常相似，IconVSR模型是回归VSR模型的SOTA基线。Vid4的性能趋势与REDS4相似。特别是，SATeCo达到了0.1015的DISTS，相对将最佳竞争对手VRT[23]的DISTS降低了26.0%。结果表明，SATeCo受益于学习扩散中的像素级空间自适应，以保留帧图像纹理，以实现更好的视频保真度。

表1。REDS4和Vid4数据集上基于像素的(PSNR和SSIM)和基于感知(LPIPS、DISTS、NIQE和CLIP-IQA)评估指标的性能比较。LR视频的宽度和高度通过不同的VSR方法重新缩放4倍。我们遵循VRT[23]将每个片段中的帧数设置为6，用于HR视频推理。

定性评估。图 4 用 REDS4 和 Vid4 中的六个示例可视化了视频超分辨率。与其他基线相比，SATeCo 可以成功地恢复更多局部细节（例如，eave 中的锐利边缘和第二个和第三个案例的辐条）在高保真的帧中。即使模糊较大（例如，第 4 个案例），SATeCo 仍然表现出视频超分辨率的强恢复能力，这再次证实了利用扩散模型的丰富知识先验和学习空间适应的有效性。为了进一步验证SATeCo学习到的时间一致性，我们使用图5中不同的基于扩散的超分辨率方法可视化了两个合成HR视频的两个相邻帧。如图所示，LDM和StableSR在两帧之间合成不同的视觉内容，例如建筑中的小窗口。相比之下，我们的 SCECo 预测具有更高帧一致性的 HR 视频并保留视觉保真度。这基本上验证了在 HR 视频中执行基于 Tubelet 的自注意力和 HR 视频和 LR 对应物之间的交叉注意力的优点，以实现更好的时间特征交互和校准。

图4。REDS4和Vid4数据集上不同方法的6个视频超分辨率结果的可视化示例。红色框中的区域显示在放大视图中进行比较。

图5。Vid4数据集中两个视频的视频超分辨率结果。两个相邻帧（即红色和蓝色框突出显示的区域）中相同局部位置的区域被放大以显示更多细节。

人工评估。接下来，我们进一步进行人体研究，通过使用不同的VSR方法对用户偏好来验证HR视频生成质量。我们在 Amazon MTurk 平台上邀请 100 名评估者，并要求每个评估者从两种不同方法生成的两个合成 HR 视频中选择更好的一个，给定相同的 LR 视频。图 6 描述了 REDS4 和 Vid4 数据集中所有八个视频的用户偏好比率。SanteCo清楚地赢得了IconVSR、BasicVSR和VRT的传统回归模型，以及StableSR的扩散模型。结果表明，通过视频扩散过程中的空间特征自适应和时间特征对齐设计，SATeCo很好地放大了视觉质量和时间相干性更好的LR视频。

图6。在REDS4和Vid4上对SATeCo与其他基线之间的用户偏好比进行人工评估。

4.3. Model Analysis

SFA和TFA模块分析。我们首先研究了SFA和TFA模块如何影响视频超分辨率的整体性能。表 2 列出了具有不同 SFA 和 TFA 模块集成方式的变体之间的性能比较。我们从基本的扩散模型 A 开始，它利用 UNet/VAE 中的零初始化卷积 [55] 从 LR 视频中学习空间引导以进行超分辨率。模型 B 和 C 通过将 SFA 和 TFA 模块插入 UNet 逐渐升级基本模型 A，这将 PSNR 从 28.56dB 提高到 29.45dB。与简单地对LR帧特征和HR帧进行加权求和的零初始化卷积来指导空间级扩散学习相比，SFA和TFA的结合不仅通过特征调制增强了空间自适应，而且增强了基于小管的注意力的时间特征对齐。因此，模型 C 获得了更高的 PSNR 和 SSIM 来衡量空间保真度。最后，通过进一步利用VAE中的SFA和TFA来调节像素空间视频重建，模型D，即我们的SATeCo，在PSNR和SSIM中表现出了最好的性能。鉴于基于感知的评估指标，SATeCo 也不断获得对其他变体的改进，这表明时空引导学习在 HR 视频中增强视觉感知的潜在好处。此外，图 7 展示了两个相邻帧中一个示例局部区域的视频超分辨率。SanteCo重建具有高质量视觉外观的HR视频，相邻帧之间具有良好的时间一致性，证明了探索特征适应和对齐对超分辨率扩散的影响。

表 2. SFA 和 TFA 模块不同集成的变体中 REDS4 的性能比较。

图7所示。SATeCo变体合成的一个视频超分辨率结果中两个相邻帧的放大视图。

视频升级器分析。然后，我们研究了 SATECo 中视频升级器的有效性。一种替代方法是使用预先训练的Pixel Shuffle层[40]作为视频升级器。表3的上半部分详细说明了两种方法在REDS4上的性能。我们的方法在所有评估指标上都优于PixelShuffle，特别是在PSNR和SSIM方面。从技术上讲，PixelShuffle通过直接在输入帧上执行2D卷积层来重新采样视频。相反，我们通过时间相互自我注意深入研究了帧相关公式，这在视频重采样的像素特征增强中更有效。因此，我们的方法有效地保留了LR视频中的视觉内容，促进了后续的视频扩散。

表3。SATeCo中视频升级器和视频细化器设计的消融研究。性能报告在 REDS4 上。

视频细化器分析。SAFECo 中的视频细化器旨在通过参考上采样的原始 LR 视频来调整来自扩散模型的解码 HR 视频，以减轻颜色退化。视频细化器的权衡参数 w 平衡了解码视频和 LR 视频之间视觉内容的影响。为了评估参数 w 的影响，我们在表 3 的下半部分通过改变 w 来列出 VSR 性能。当 wis 0 时，基于感知的指标的性能是最好的，但 PSNR 和 SSIM 的性能略有下降。性能表明，扩散模型合成的视觉内容更容易被人类视觉系统接受。相比之下，使用较大的 w 值（例如 1.0）进行视频细化会更多地考虑 LR 视频的信息，削弱扩散模型的贡献，影响视觉内容生成的质量。因此，我们根据经验将 w 设置为 0.5，以在合成内容和原始视觉外观之间寻求良好的权衡。

5. Conclusions

我们提出了SATeCo，它探索了视频超分辨率扩散模型中的空间适应和时间相干性。特别是，我们研究了从低分辨率视频中学习时空指导的问题，以校准高分辨率视频扩散过程。为了具体化这个想法，SATeCo 冻结了预训练的 UNet/VAE 中的所有参数，并在每个解码器块中插入空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块来调节潜在空间视频去噪和像素空间视频重建。通过在低分辨率视频的指导下学习仿射参数，SFA调节每个像素的高分辨率特征，实现空间自适应。TFA 在 Tubelet 中执行自注意力以增强特征交互，并进一步在 Tubelet 与其低分辨率对应物之间进行交叉注意力以指导时间特征对齐学习。在两个视频数据集(如REDS4和Vid4)上进行的实验验证了所提出的SATeCo在空间保真度和时间一致性方面对视频超分辨率的有效性。