论文阅读：SimVP: Simpler yet Better Video Prediction

论文地址：arxiv

摘要

作者认为，现有的CNN，RNN，Transformer 之类的视频预测领域的模型都过于复杂了，作者想要找到一个简单的方式，同时可以达到与之相当的效果。

作者提出了 SimVP，这是一个简单的视频预测模型，完全基于 CNN 构建，通过均方误差（MSE）损失函数以端到端的方式进行训练。在不引入任何额外技巧与复杂策略的情况下，就可以实现最先进的性能。

正文

深度视频预测模型当前主要有 4 类，如图所示：

分别是:

RNN-RNN-RNN
CNN-RNN-CNN
CNN-ViT-CNN
CNN-CNN-CNN

在纯 CNN 基础模型方面，要提高准确度，通常要使用各种技术，但是作者探索出了一个简单模型的新高度。

问题描述

给定一个在时间 t t t 的包含过去 T T T 帧的视频序列 X t , T = { x i } t − T + 1 t X_{t,T}=\{x_{i}\}^t_{t-T+1} Xt,T={xi}t−T+1t，而目标是在时间 t t t 预测未来的序列 Y t , T ′ = { x i } t t + T ′ Y_{t,T'} = \{x_{i}\}^{t+T'}t Yt,T′={xi}tt+T′。该序列包含接下来的 T ′ T' T′ 帧，其中 x i x{i} xi 是一个具有通道数 C C C，高度 H H H 和宽度 W W W 的图像。形式上，预测模型是一个映射 F Θ : X t , T − > Y t , T ′ F_\Theta:X_{t,T}->Y_{t,T'} FΘ:Xt,T−>Yt,T′，其中的可学习参数 Θ \Theta Θ 通过以下公式优化：

Θ ∗ = arg ⁡ min ⁡ Θ L ( F Θ ( X t , T ) , Y t , T ′ ) \Theta ^* = \arg \min {\Theta } \mathcal {L}(\mathcal {F}{\Theta }(\boldsymbol {X}{t, T}), \boldsymbol {Y}{t, T'}) Θ∗=argΘminL(FΘ(Xt,T),Yt,T′)
L L L 可以是各种损失函数。

模型架构

SimVP 由一个编码器，一个翻译器，一个解码器组成。

编码器用于提取空间特征
翻译器学习时间演变
解码器则整合时间信息以预测未来帧

编码器

编码器堆叠了 N s N_s Ns 个 ConvNormReLU 块（Conv2d+LayerNorm+LeakyReLU）来提取空间特征，即在（H，W）上进行 C 通道的卷积。隐藏特征表示为：

z i = σ ( L a y e r N o r m ( C o n v 2 d ( z i − 1 ) ) ) , 1 ≤ i ≤ N s z_{i} = \sigma (\mathrm {LayerNorm} (\mathrm {Conv2d}(z_{i-1}))), 1 \leq i \leq N_s zi=σ(LayerNorm(Conv2d(zi−1))),1≤i≤Ns

其中输入 z i − 1 z_{i-1} zi−1 和输出 z i z_i zi 的形状分别为 ( T , C , H , W ) (T, C, H, W) (T,C,H,W) 和 ( T , C , H ^ , W ^ ) (T, C, \hat{H}, \hat{W}) (T,C,H^,W^)。

翻译器

翻译器使用 N t N_t Nt 个 Inception 模块来学习时间演变，即在 ( H , W ) (H, W) (H,W) 上进行 T ∗ C T*C T∗C 通道的卷积。

Inception 模块由一个 1*1 大小的 Conv2d 后接并行的 GroupConv2d 操作符完成。隐藏特征表示为：
z j = I n c e p t i o n ( z j − 1 ) , N s < j ≤ N s + N t z_{j} = \mathrm {Inception}( z_{j-1} ), N_s < j \leq N_s+N_t zj=Inception(zj−1),Ns<j≤Ns+Nt

其中输入 z j − 1 z_{j-1} zj−1 和输出 z j z_j zj 的形状分别为 ( T ∗ C , H , W ) (T*C, H, W) (T∗C,H,W) 和 ( T ^ ∗ C ^ , H , W ) (\hat{T}*\hat{C}, H, W) (T^∗C^,H,W)。

解码器

解码器使用 N s N_s Ns 个 unConvNormReLU 块（ConvTranspose2d+GroupNorm+LeakyReLU）来重建真实帧，在（H, W）上进行 C 通道的卷积。隐藏特征表示为

z k = σ ( G r o u p N o r m ( u n C o n v 2 d ( z k − 1 ) ) ) , N s + N t < k ≤ 2 N s + N t z_{k} = \sigma (\mathrm {GroupNorm} (\mathrm {unConv2d}(z_{k-1}))),\\ N_s+N_t < k \leq 2N_s + N_t zk=σ(GroupNorm(unConv2d(zk−1))),Ns+Nt<k≤2Ns+Nt

其中，输入 z k − 1 z_{k-1} zk−1 与输出 z k z_k zk 的形状分别为 ( T , C ^ , H ^ , W ^ ) (T,\hat{C},\hat{H}, \hat{W}) (T,C^,H^,W^) 与 ( T , C , H , W ) (T,C,H,W) (T,C,H,W)。使用 ConvTransposed2d 作为 unConv2d 操作符。