BasicVSR-lite图像画质增强

一模型介绍

是一个CNN+光流对其+双向时许传播的视频增强模型，适合做

视频超分辨率、视频去噪、视频去模糊、视频压缩伪影修复、一般视频增强

BasicVSR系列的核心思想是；不要只增强单帧，而是利用前后多帧的信息。BasicVSR++论文也明确说，基于recurrent structure 通过双向传播和特征对其来利用整个视频序列的信息，BasicVSR++进一步加入二阶传播和flow-guided deformable alignment，增强了对错位视频帧的时空信息利用。

1.1 为何BasicVSR-like模型合适？

模型适合程度原因

BasicVSR-lite 最推荐结构清楚，CNN为主，适合自己实现

EDVR 也推荐，经典视频增强模型，deformable conv实现稍复杂

FastDVDnet 适合视频去噪，不依赖光流，速度快，结构相对直接

BasicVSR++ 效果更强但结构比BasicVSR更复杂

RealBasicVSR 真实视频超分，适合真实退化视频，但是训练场领略更复杂

优先级

BasicVSR-lite

EDVR

BasicVSR++ / RealBasicVSR

1.2 BasicVSR-lite的整体结构

输入不是一张图，而是一段连续视频帧

输入低质量视频帧

frame_1, frame_2, frame_3, ...frame_T

张量形状一般是

B, T, C,H,W

B = batch size

T 连续帧数量，比如7或15

C = 3，RGB 通道数量

H = 图像高度

W= 图像宽度

整体网络可以写成

连续低质量帧

->每帧CNN提取特征

->光流估计/特征对齐

->反向时序传播

->正向时序传播

->特征融合

->重建网络

->增强后视频帧

1.3 网络结构详细拆解

1.3.1 输入

假设一次输入7帧

x = $frame_1, frame_2, ... frame_7$

shape 是

shape = $8, 7, 3, H, W$

如果做4倍超分，输入可能是

低清视频帧， $B, 7, 3, 64, 64$

高清目标帧 $B, 7, 3, 256, 256$

如果做去噪，去模糊，压缩伪影修复，输入和输出尺寸通常一样

低质量帧 $B,7,3,H,W$

高质量帧 $B, 7, ,3, H, W$

1.3.2 每帧特征提取CNN

frame_t ->Conv->RsBlocks->feature_t

feature_t.shape = $B, 64, H, W$

这里的CNN可以用

COnv2d ResidualBlock

ReLU / LeakyReLU

这部分和人脸模型ResNet思路类似，输出不是512维向量，而是保留二维特征图

人脸识别

B, 3, 112, 112\]-\>CNN-\>\[B, 512

视频增强

B, 3,H,w\]-\>CNN-\>\[B, 64, H, W

视频增强不能太早flatten, 因为需要恢复图像细节

1.3.3 光流估计/帧间对齐

视频增强最大的问题是：

相邻帧内容相似，物理会运动

BasicVSR类模型通常使用光流网络，比如SPyNet，来估计相邻帧之间的运动，BasicVSR++补充材料里也提到使用pretrained SPyNet作为flow network

光流可以理解成

第t帧的每个像素，应该往哪里移动，才能对齐到t+1帧

feature_{t-1}

根据optical flow warp

对齐到feature_t

1.3.4 双向时许传播

这是BasicVSR的核心

看当前帧附近的几帧，让信息沿着时间传播。

反向缠传播

从视频最后一帧往前传

frame_T->frame_{T-1}->...frame_1

得到每一帧的backward feature

backward_feature_t

正向传播

再从第一帧往后传

frame_1->frame_2 ...frame_T

得到每一帧的forward feature

forward feature_t

最后第t帧可以利用

当前帧特征

前面帧传来的信息

后面帧传来的信息

enhanced_feature_t = fuse(

current_feature_t,

forward_feature_t,

backward_feature_t

)

1.3.5 重建网络

融合后的特征再经过CNN重建成图像

如果是去噪/去模糊/压缩增强

B,64,H,W\]-\>Conv-\>\[B,3,H,W

如果是视频超分辨率，

B, 64, H, W

->PixelShuffle x2

-> $B, 3, 4H, 4W$

1.4 如果用EDVR

EDVR时CVPRW 2019的视频恢复模型，

EDVR沦为提示两个关键模块

PCD Alignment 金字塔，及联，可变形卷积对齐

TSA Fusion 时许和空间注意力融合

1.5 需要去噪FastDVDnet

去噪->降低ISO噪声->减少暗光噪声->视频画面变干净

FastDVDnet是CVPR 2020的视频去噪模型，官方仓库提供Pytorch实现，说明它不适用光流估计的视频去噪算法。

不用光流->结构相对简单->速度快->适合视频去噪入门

二代码实现

复制代码

import torch`
`import torch.nn as nn`
`import torch.nn.functional as F`

`def flow_wrap(`
`x,flow,padding_mode="border",`
`align_corners=True`
`):`
`#使用光流对特征图做wrap对齐`
`#参数，x: 要背对齐的特征图，shape=[B,C,H,W]`
`# flow: 光流，shape=[B,2,H,W]`
`#flow]:, 0, :, :[表示x方向位移，横向位移`
`#flow[:,1,:,:] 表示y方向位移，就是纵向位移`
`#padding_mode:`
`            grid_sample 越界采样时的填充方式。`
`            "border" 表示越界时使用边界像素。`
`# align_corners:`
`  grid_sample的坐标对齐方式`
`返回 warped_x: 根据flow对齐后的特征图，shape=[B,C,H,W]`
`#取出输入特征图的batch size，通道数，高，宽`
`b,c,h,w = x.size()`
`#确保flow的数据类型和x一致，避免AMP/FP16 时类型冲突`
`flow = flow.to(dtype=x.dtype)`
`#生成y坐标网络，范围时0到H-1`
`#生成x坐标网络，范围是0到W-1`
`grid_y, grid_x = torch.meshgrid(`
`    torch.arange(0, h, device=x.device, dtype=x.dtype),`
`    torch.arange(0, w, device=x.device, dtype=x.dtype),`
    `indexing="ij"`
`)`
`#grid_x原本shape是[H,W]`
`扩展成[B,H,W] 方便和batch内每张图的flow相加`
`grid_x = grid_x.unsqueeze(0).expand(b, -1, -1)`
`#grid_y 原本shape是[H,W]`
`#扩展成[B,H,W]`
`grid_y, grid_y.unsqueeze(0).expand(b, -1, -1)`
`#当前像素为止x坐标 + 光流横向位移`
`#得到需要从原特征图哪个x为止采样`
`vgrid_x = grid_x + flow[:,0,;,);]`
`#当前像素位置坐标y坐标+光流纵向位移`
`得到需要从原特征图哪个y位置采样`
`vgrid_y = grid_y + flow[]`

`#grid_sample要求坐标范围时[-1, 1]`
`#所以要把像素坐标[0, W-1]转换成[-1, 1]`
`if w > 1:`
    `vgrid_x = 2.0 * vgrid_x / (w-1) - 1.0`
`else`
    `vgrid_x = torch.zeros_like(vgrid_x)`
    
`#把像素坐标[0, H-1]转换成[-1, 1]`
`if h > 1:`
`        vgrid_y = 2.0 * vgrid_y / (h - 1) - 1.0`
`    else:`
`        vgrid_y = torch.zeros_like(vgrid_y)`
`#grid_sample要求最后一维时[x,y ]`
`#所以这里吧x坐标和y坐标对跌倒最后一维`
`grid = torch.stack(vgrid_x, vgrid_y), dim=-1`

`#根据grid 从x中采样，得到warp后的特征图`
`warped_x = F.grid_sample(`
`x,grid, mode="bilinear", padding_mode=padding_mode,`
`align_cornors=align_cornors,`
`)`
`#返回对齐后的特征图`
`return warped_x`

`class ResidualBlockNoBN(nn.Module):`
`# 不带BatchNorm 的残差块`
`#视频增强，超分模型里经常不用BatchNorm`
`#因为BatchNorm可能影响图像恢复的细节和数值范围`
`def __init__(self, channels, res_scale=1.0):`
`#channels 输入和输出通道数`
`#res_scale 残差缩放系数`
`#可以让残差分支更稳定`
`#初始化nn.Module父类`
`super().__init__()`
`#第一个3x3卷积，通道数不变`
`self.conv1 = nn.Conv2d(`
` channels,`
` chnanels, `
 `kernel_size=3,`
` stride=1,`
` padding=1,`
`)`
`#第二个3x3卷积，通道数不变`
`self.conv2 = nn.Conv2d(`
`            channels,`
`            channels,`
`            kernel_size=3,`
`            stride=1,`
`            padding=1,`
`        )`
`#使用LeakyReLU作为激活函数`
`self.relu = nn.LeakyReLU(`
`  negative_slope = 0.1`
` inplace=True`
`)`
`#保存残差缩放系数`
`self.res_scale = res_scale`

`def forward(self, x)`
`#前向传播，输入x shape = [B,C,H,W]`
`#输出 out shpe = [B,C,H,W]`
`#保存原始输入，用于残差链接`
`identity - x`
`#第一个卷积`
`out = self.conv1(x)`
`#激活函数`
`out = self.relu(out)`
`#第二个卷积`
`out = self.conv2(out)`
`#残差链接，输出 = 原输入 + 残差分支`
`out = identity + out * self.res_scale`
`#返回残差块输出`
`return out`

`class ResidualBlockWithInputConv(nn.Module):`
`#信用一个卷积吧输入通道变成mid_channels`
`再接多个残差块`
`#`
`def __init__(`
`self,in_channels,mid_channels,num_block`
`);`
` """`
`        参数：`
`            in_channels:`
`                输入通道数。`

`            mid_channels:`
`                中间特征通道数。`

`            num_blocks:`
`                残差块数量。`
`        """`
    `#初始化父类`
    
    `super().__init__()`
    `#用list存放网络层`
    `layers = []`
    `#输入卷积，吧in_channels变成mid_channels`
    `layers.append(`
`    nn.Conv2d(`
`                in_channels,`
`                mid_channels,`
`                kernel_size=3,`
`                stride=1,`
`                padding=1,`
`            )`
    `)`
    `#激活函数`
    `layers.append(`
    ` nn.LeakyReLU(`
     `negative_slope=0.1,inplace=True`
     `)`
    `)`
    `#堆叠多个残差块`
    `for _ in range(num_blocks):`
    `  layers.append(`
      `    ResidualBlockNoBN(`
          `   channels=mid_channels,`
          `)`
      `)`
`#把所有层组成一个Sequential`
`  self.main = nn.Sequential(*layers)`
`def forward(self, x):`
`        """`
`        前向传播。`
`        """`

`        # 直接把输入送进 Sequential`
`        return self.main(x)`
`class TinyFlowNet(nn.Module):`
`#非常简化的光流网络`
`#不是论文里的BasicVSR里的SpyNet 这是为了吧BasicVSR-like结构跑通`
`#输入 img_ref 参考帧，shape=[B,3,H,W]`
`img_supp`
` 支撑帧，相邻帧`
 `shape = [B,3,,H,W]`
 
 `def __init__(self, max_flow=20.0)`
 `参数,max_flow 限制预测光流的最大像素位移`
 `#初始化父类`
 `super().__init__()`
 `#保存最大光流范围`
 `self.max_flow = max_flo`
 `e#输入是两张RGB图拼接， 所有通道数是6`
 `self.body = nn.Sequential(`
 `   #第一层卷积，提取浅层特征`
` nn.Conv2d(6, 32, kernel_size=7, stride=1, padding=3),`
 `nn.LeakyReLU(0.1, inplace=True),`
 `#下采样一次，扩大感受`
` nn.Conv2d(32, 64, kernel_size=5, stride=2, padding=2),`
` nn.LeakyReLU(0.1, inplace=True),`
` #中间卷积`
` nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1),`
`nn.LeakyReLU(0.1, inplace=True),`
`#再下次阿阳一次，继续扩大感受`
`nn.Conv2d(64, 96, kernel_size=3, stride=2, padding=1),`
`nn.LeakyReLU(0.1, inplace=True),`
`#中间卷积`
`nn.Conv2d(96, 96, kernel_size=3, stride=1, padding=1),`
`nn.LeakyReLU(0.1, inplace=True),`
`#上采样回较高分辨率`
`nn.ConvTranspose2d(96, 64, kernel_size=4, stride=2, padding=1),`
`nn.LeakyReLU(0.1, inplace=True),`
`#再上采样回原图分辨率附近`
`nn.Conv2d(64, 96, kernel_size=3, stride=2, padding=1),`
`nn.LeakyReLU(0.1, inplace=True)`
`#中间卷积`
`nn.Conv2d(96, 96, kernel_size=3, stride=1, padding=1),`
`nn.LeakyReLU(0.1, inplace=True)`
`#上采样回校高分辨率`
`nn.ConvTranspose2d(96, 64, kernel_size=4, stride=2, padding=1),`
`nn.LeakyReLU(0.1, inplace=True)`
`#再上采样回调分辨率附近`
`nn.ConvTranspose2d(64, 32, kernel_size=4,stride=2,padding=1)`
`nn.LeakyReLU(0.1, inplace=True)`
`#输出` `2通道光流，dx和dy`
`nn.Conv2d(32, 2, kernel_size=3, stride=1, padding=1)`
`)`        

`def` `forward(self, img_ref, img_supp):`
`##前向传播`
`#记录原始图像的高和宽`
`#shape` `[B, 6, H, W]`
`inp` `= torch.cat([img_ref, img_supp], dim=1)`
`#预测光流`
`flow` `=` `self.body(inp)`
`#如果因为下采样，上采样导致尺寸略有差异，就插值回原尺寸`
`if` `flow.shape[-2:]` `!=` `(h, w):`
   `flow` `=` `F.interpolate(`
      `flow,`
      `size(h,w),`
      `mode="bilinear",`
      `align_corners=False`
   `)`
`#用tanh` `把输出限制到[-1,1]`
`#再乘max_flow` `得到像素激光流范围`
`flow` `= torch.tanh(flow)` `*` `self.max_flow`
`#返回光流`
`return flow`

`class` `BasicVSRLite(nn.Module):`
`#教学版，BasicVSR-lite`
`#整体结构` `输入视频帧序列`
`#CNN提取每帧特征`
`#估计相邻帧光流`
`#反向时间传播T->1`
`正向时间传播1->T`
`当前帧特征` `+` `反向传播特征` `+` `正向传播特征` `融合`
`重建增强帧` `/` `超分帧`
`输入：`
`x` `shpe` `=` `[B, T, 3, H, W]`
`输出`
`scale` `=` `1:`
 `out shape=[B, T, 3, H, W]`
 `scale=2:`
  `out shape` `=` `[B, T, 3, 2H, 2W]`
  `scale` `= 4:`
  `out shape` `=` `[B, T, 3, 4h, 4w]`
`def` `__init__(`
  `self,` `mid_channels=64,`
  `num_feature_blocks=5,`
  `num_propagation_blocks=7,`
`scale=1,`
`max_flow=20.0,`
`)` `:`
`参数`
`mid_channels:中间特征通道`
  `64` `是常见的轻量配置`
`num_feature_blocks:`
 `每帧特征提取阶段的残差块数量`
`num_propagation_blocks`
 `正向/反向传播阶段的残差块数量`
 `num_reconstruction_blocks`
  `重建阶段的残差块数量`
`scale:`
 `放大倍率`
 `scale=1` `表示输入输出同尺寸，同于去噪，去模糊，增强`
 `scale=2` `表示2倍超分`
 `scale=4` `表示4倍超分`
 `max_flow` `TinyFlowNet` `预测光流最大像素位移`
 
 `#初始化分类`
 `super().__init__()`
 `#只允许1，2，4三种倍率`
 `assert` `scale` `in` `(1,2,4),` `"scale must be 1,2, or 4"`
 `#保存中间通道数`
 `self.mid_channels` `=` `mid_channels`
 `#保存超分倍率`
 `self.scale=scale`
 `#光流网络，用于估计相邻帧之间的运动`
 `self.flow_net` `=` `TinyFlowNet(`
    `max_flow` `=` `max_flow,`
 `)`
 `#每帧特征提取网络`
 `feature_layers=[]`
 `#第一层卷积，RGB图像3通道->mid_channels`
 `feature_layers.append(`
  `nn.Conv2d(`
  `3,` `mid_channels,kernel_size=3,`
   `stride=1,padding=1`
  `)`
 `)`
`#激活函数`
`feature_layers.append(`
  `nn.LeakyReLU(`
      `negative_slope=0.1,` `inplace=True`
  `)`
`)`
`#堆叠多个残差块，用于提取每一帧的空间特征`
`for` `_` `in` `range(num_feature_blocks):`
 `feature_layers.append(`
     `ResidualBlockNoBN(`
        `channels=mid_channels,`
     `)`
 `)`
`#组成每帧特征提取网络`
`self.feat_extract` `=` `nn.Sequential(*feature_layers)`
`#反向传播网络`
`#输入是当前帧特征` `+` `从未来帧传播过来的特征`
`#所以输入通道数mid_channels` `*` `2`
`self.backward_trunk` `= ResidualBlockWithInputConv(`
    `in_channels` `= mid_channels` `* 2,`
    `mid_channels` `=` `mid_channels,`
    `num_blocks=nm_propagation_blocks`
`)`
`#正向传播网络`
`#输入是当前帧特征` `+` `从过去帧传播过来的特征`
`#所以输入通道数也是mid_channels` `*2`
`self.forward_trunk` `= ResidualBlocksWithInputConv(`
   `in_channels` `= mid_channels` `*` `2,`
   `mid_channels` `=` `mid_channels,`
   `num_blocks` `= num_propagation_blocks,`
`)`
`#重建网络，`
`#输入是当前帧特征` `+` `反向传播特征` `+` `正向传播特征`
`#` `所以输入通道数是mid_channels` `*` `3`
`self.reconstruction` `= ResidualBlocksWithInputConv(`
  `in_channels` `= mid_channels` `*` `3,`
`mid_channels` `= mid_channels,`
`num_blocks` `=` `num_reconstruction_blocks,`
`)`
`#激活函数`
`self.lrelu` `= nn.LeakyReLU(`
   `negative_slope=0.1,`
   `inplace=True,`
`)`
`#pixelShuffle用于超分辨率上采样`
`self.pixel_shuffle = nn.PixelShuffle(`
  `upscale_factor=2,`
`)`
`#如果scale` `>=2` `需要一次2倍上采样`
`if` `scale` `>=` `2:`
  `self.upconv1` `=` `nn.Conv2d(`
     `mid_channels,`
     `mid_channels` `*` `4,`
     `kernel_size=3,`
     `stride=1,`
     `padding=1,`
  `)`
`#如果scale==4需要两次2倍上采样`
`if` `scale` `== 4:`
 `self.upconv2` `= nn.Conv2d(`
    `mid_channels,`
    `mid_channels` `*4,`
    `kernel_size=3,`
    `stride=1,`
    `padding=1,`
 `)`  
`#高分辨率空间上的卷积`
`self.conv_hr` `= nn.Conv2d(`
  `mid_channels,`
  `mid_channels,`
  `kernel_size=3,`
  `stride=1,`
  `padding=1,`
  `#最后一层卷积，把特征图变回RGB图像`
`)`
`self.conv_last` `= nn.Conv2d(`
  `mid_channels,`
 `3,`
 `kernel_size=3,`
 `stride=1,`
 `padding=1,`
`)`
`def` `compute_flows(self, x):`
`#计算相邻帧之间的光流`
`#输入`
`x shape =` `[B, T, 3, H ,W]`
`返回` `flow_forward:`
`用于正向传播`
`flows_forward[:, i-1]表示第i帧` `->` `第i-1帧的光流`
`用它可以把过去帧特征wrap到当前帧`
`shape=[B,T-1, 2, H, W]`
`flows_backward:`
 `用于反向传播，flows_backward[:,i]表示第i帧` `第i` `+ 1帧的光流`
 `用它可以把未来帧特征warp到当前帧`
 `shape` `= [B,T-1,2,H,W]`
 `#取出输入视频的维度`
 `b,t,c,h,w =` `x.size()`
 `#如果只有1帧，就没有相邻帧光流`
 `if t` `<=1:`
  `empty` `= x.new_zeros(b, 0, ,2, h, w)`
  `return empty, empty`

`#存放反向传播需要的光流`
`flows_backward` `=` `[]`
`#对于反向传播，需要从未来帧传播到的当前帧`
`#warp` `future` `feature` `到当前帧时，需要当前帧` `->未来帧` `的光流`
`for` `i in range(t - 1):`
`#计算第i帧到第i` `+` `1帧的光流`
`flow_i_to_next =` `self.flow_net(`
`x[:, i, :, :, :],`
`x[:, i + 1, :, :, :],`
`)`
`#保存光流`
`flows_backward.append(flow_i_to_next)`
`#把list堆叠成tensor`
`#shape` `= [B, T-1, 2, H, W]`
`flows_backward=torch.stack(`
   `flows_backward,`
   `dim=1,`
`)`
`#存档正向传播需要的光流`
`flows_forward=[]`
`#对于正向传播，需要从过去帧传播到当前帧`
`#warp` `past feature 到当前帧时，需要当前帧-》过去帧的光流`
`for i in range(1, t):`
`#计算第i帧到第i-1帧的光流`
 `flow_i_to_prev` `= self.flow_net(`
 `x[:, i, :, :, :],`
` x[:, i - 1, :, :, :],`
 `)`
 `#保存光流`
 `flows_forward.append(flow_i_to_prev)`
 `#shape = [B, T-1, 2, H, W]`
 `flow_forwards` `= torch.stack(`
 `flows_forward,`
 `dim=1`
 `)`
 `#返回正向传播光流和反向传播光流`
 `return` `flows_forward,` `flows_backward`
 
 `def` `upsample(self, feat):`
 `根据scale对重建特征进行上采样`
 `输入:` `feat shape` `= [B, C, H, W]`
 `输出` `scale=1`
  `out shape` `= [B, 3, H, W]`
  `scale=2`
  `out` `shape=[B, 3, 2H, 2W]`
  `scale=4:`
  `out` `shape=` `[B, 3, 4H, 4W]`
  `#如果是2倍或4倍超分，先做一次2倍PixelShuffl`
  `eif self.scale` `== 2:`
   `#卷积把通道扩展到4倍`
   `feat = self.upconv1(feat)`
   
   `#pixelShuffle把通道转换为空间分辨率`
   `feat = self.pixel_shuffle(feat)`
   `#激活`
   `feat =` `self.lrelu(feat)`
   `#如果是4倍超分，需要做两次2倍PixelShuffle`
   `elif self.scale ==` `4`
   `:#第一次2倍上采样`
   `feat` `= self.upconv1(feat)`
   `feat = self.pixel_shuffle(feat)`
   `feat = self.lrelu(feat)`

`#第二次2倍上采样`
`feat = self.upconv2(feat)`
`feat = self.pixel_shuffle(feat)`
`feat = self.lrelu(feat)`
`#高分辨率卷积`
`feat = self.conv_hr(feat)`
`#激活`
`feat = self.lrelu(fea)t`
`#输出RGB残差图像`
`out = self.conv_last(feat)`
`#返回输出`
`return out`

`def get_base_frame(self, lr_frame):`
`获取残差链接里的base image`
`#对于scale=1`
`base就是原输入帧`
`对于scale=2或scale=4`
`bas是双线性循环放大后的输入帧`
`最终输出`
`enhanced = predicted_residual` `+ base`
`#如果不做超分，直接返回原图`
`if self.scale` `== 1:`
  `return` `lr_frame`
  `#如果做超分，吧低清晰度输入双线性插值放大`
`base = F.interpolate(`
`lr_frame,`
`scale_factor=self.scale,`
`mode` `= "bilinear",`
`align_corners=False`
`)`
`#返回base` `frame`
`return base`

`def forward(self, x):`
` """`
`        前向传播。`

`        输入：`
`            x shape = [B, T, 3, H, W]`

`        输出：`
`            out shape = [B, T, 3, H*scale, W*scale]`
`        """`
`#检查输入必须是5倍`
`if x.dim()` `!= 5`
`#取出输入视频的维度`
`b,t,c,h,w` `= x.size()`
`检查必须是RGB视频`

`#每帧CNN特征提取`
`#把[B,T,3,H,W]reshape成[B*t, 3, H ,W]`
`#这样可以一次性把所有帧送进CNN`
`x_reshape = x.reshape(b*t, c, h, w)`
`#提取每帧空间特征`
`feats` `= self.feat_extract(x_reshape)`
`#把特征reshape回视频序列形式`
`#shape` `= [B,T,mid_channels, H,W]`
`feats =` `feats.reshape(`
`b,t,self.mid_channels,`
`h,w`
`)`
`#计算相邻帧光流`
`flows_forward用于正向传播`
`flows_backward` `用于反向传播`
`flows_forward, flows_backward` `= self.compute_flows(x)`
`#反向时间传播` `从T-1帧传播到第0帧`
`#用list存放每一帧反向传播特征`
` backward_feats = [None] * t`
 `#初始化传播特征为全0`
 `#shape =` `[B, mid_channels, H, W]`
 `feat_prop = x.new_zeros(b, self.mid_channels,h,w)`
`#从最后一帧住第一帧遍历`
`for i in range(t - 1, -1, -1):`
 `#如果不是最后一帧，就需要把未来帧传播特征warp到当前帧`
  `if` `i <` `t - 1:`
    `#flows_backward[:, i]是第i帧->第i+1帧的光流`
    `#用它可以把第i + 1帧的传播特征对齐到第i帧`
 ` feat_prop = flow_warp` `(`
      `feat_prop,`
      `flows_backward[:, i,:,:,:],`
 ` )`
`#当前帧特征`
`curr_feat` `= feats[L,i,:,:,:]`
`#拼接当前帧特征和传播特征`
`#shape` `= [B, mid_channel *2, H, W]`
`feat_input = torch.cat(`
   `[curr_feat, feat_prop],`
   `dim = 1,`
`)`
`#通过反向传播网络更新传播特征`
`#shape` `= [B, mid_channels * 2, H, W]`
`feat_input = torch.cat(`
   `[curr_feat, feat_prop],`
   `dim=1,`
`)`
`#通过反向传播网络更新传播特征`
`feat_prop = self.backward_trunk(feat_input)`
`#保存第i帧对应的反响传播特征`
`backward_feats[i]` `= feat_prop`
`#4` `正向时间传播，从第0帧传播到T-1帧`
`#用list存放每一帧的正向传播特征`
`forwards_feats =` `[None]*t`
`#初始化正向传播特征为全0`
`feat_prop = x.new_zeros(b,self.mid_channels, h,w)`

`#从第一帧往后一帧遍历`
`for i in range(t):`
`#如果不是第一帧，就需要把过去帧传播特征warp到当前帧`
   `if` `i > 0`
   `#dlows` `forward[:, i-1]是第i帧` `第i-1帧的光流`
   `#用它可以把第i-1帧的传播特征对其道第i帧`
   `feat_prop` `= flow_warp(`
       `feat_prop,`
       `flow_forward[:,i-1,:,:,:]`   
   `)`
   `#当前帧特征`
   `curr_feat = feats[:,i,:,:,:]`
   `#拼接当前帧特征和正向传播特征`
   `feat_input = torch.cat(`
    `[curr_feat, feat_prop],`
    `dim=1,`
   `)`
   `#通过正向传播网更新传播特征`
   `feat_prop = self.forward_trunk(feat_input)`
   `#保存第i帧对应的正向传播特征`
   `forward_feats][i = feat_prop`
   `#融合当前帧特征，反向传播特征，正向传播特征，` `并重建输出帧`
   `#存放所有输出帧`
   `outs=[]`
   `#对每一帧分别重建`
   `for i in` `range()t:`
   `#当前帧的原始空间特征`
    `curr_feat = feats[:,i,:,:,:]`
`   #当前帧的反向传播特征`
   `backward_feat =` `backward_feats[i]`
   `#当前帧的正向传播特征`
   `forward_feat = forward_feats[i]`
   `#三类特征拼接`
   `#shape = [B,mid_channels * 3, H,W]`
   `feat = torch.cat(`
     `[currefeat, backward_feat, forward_feat],`
     `dim=1,`
   `)`
   `#通过重建网络重建特征`
   `feat` `= self.reconstruction(feat)`
   `#根据scale输出RGB残差图像`
   `out = self.upsample(feat)`
   `#获取base frame`
   `#scale=1` `时就是原输入帧`
   `#scale= 2/4` `时是双线性插值放大后的输入帧`
   `base = self.get_base_frame(`
     `x[:,i,:,:,:]`
   `)`
   `#残差学习，最终输出` `网络预测残差` `+` `base`
   `out = out +` `base`
   `#保存当前输出帧`
   `outs.append(out)`
   `#把list里的每一帧堆叠回视频序列`
   `#shape` `= [B,T,3, H *scale, W*scale]`
   `outs = torch.stack(outs, dim=1)`
   `#返回增强后的视频帧序列`
   `return outs`
   
   `if __name__ == "__main__":`
   `简单测试代码`
   `直接运行` `python basicvsr_lite.py`
   `#构造一个BasicVSR-lite模型`
   `#scale=1` `表示输入输出同分辨率`
   `model = BasicVSRLite(`
    `mid_channels=64,`
    `num_feature_blocks=5,`
    `num_propagation_blocks=7,`
    `num_reconstruction_blocks=10,`
    `scale=1,`
   `)`
   `#构造一个假的输入视频batch`
   `#B=2,T=7,C=3,H=64,W=64`
   `x = torch.randn(2,7,3,64,64)`
`#前向传播`
`y = model(x)`
`#打印输入输出尺寸`
`#训练时一般这样计算损失`
`#假设gt是清晰视频帧，shape和y一样`
`gt = torch.randn_like(y)`
`#视频增强/超分常用L1Loss`
`loss = F.l1_loss(y, gt)`
`

二模型总结