视频修复技术和实时在线处理

什么是视频修复？

视频修复技术的目标是填补视频中的缺失部分，使视频内容连贯合理。这项技术在对象移除、视频修复和视频补全等领域有着广泛的应用。传统方法通常需要处理整个视频，导致处理速度慢，难以满足实时处理的需求。

技术发展与挑战？

早期的视频修复技术依赖于从图像的其他区域采样已知纹理来填补缺失内容，这种方法计算量大，难以实现实时处理。随着深度学习技术的发展，特别是卷积神经网络（CNN）、递归神经网络（RNN）和生成对抗网络（GAN）的应用，视频修复的质量得到了显著提升。最近，Transformer模型在视觉任务中表现出色，但在在线和实时视频修复方面仍存在挑战。

研究目标与核心设计？

研究者们最新提出了一个新的视频修复框架，旨在适应在线和实时的要求，同时尽量减少质量损失。该框架的目标是实现每秒超过20帧的修复速度。框架包括三种方法：在线修复、记忆修复和记忆优化修复。

**在线修复：**通过自然修改使修复模型适应在线环境，但帧率仍然不足。

**记忆修复：**引入记忆机制，保留连续结果以减少计算量，提高了帧率，但修复质量有所下降。

**记忆优化修复：**通过双模型协作，一个模型实时修复当前帧，另一个模型对已修复帧进行精细处理，以提高整体质量。

引用论文：Towards Online Real-Time Memory-based Video Inpainting Transformers

模型细节与创新点？

**注意力机制调整：**Transformer的注意力机制被调整为仅包含最后一帧的patch，减少了不必要的预测。

**中间结果保存与重用：**保存Transformer的中间结果，并在后续预测中重用，将计算复杂度从O(n^2)降低到O(n)。

**双模型协作：**两个模型协同工作，一个负责实时修复，另一个负责精细处理，以兼顾实时性和修复质量。

实验

实验设置：

模型（Backbones）：
- 实验使用了三种最先进的视频修复Transformer模型作为基础模型，即"背骨"模型，分别是：
  - Decoupled Spatial-Temporal Transformer (DSTT)
  - FuseFormer
  - End-to-End Framework for Flow-Guided Video Inpainting (E2FGVI)
数据集：
- YouTube-VOS：包含4519个视频，每个视频大约150帧。
- DAVIS：包含150个视频，每个视频大约120帧。
- 由于目的是适配现有模型，实验中没有进行额外训练，而是直接使用了预训练模型的权重。
评估指标：
- PSNR（峰值信噪比）
- SSIM（结构相似性）
- VFID（视频基于Fréchet Inception Distance）
- Ewarp（光流 warping 误差）
- 帧率（FPS）