【论文精读】AVID：基于扩散模型的任意长度视频修复

标题：AVID: Any-Length Video Inpainting with Diffusion Model

作者：Zhixing Zhang, Bichen Wu, Xiaoyan Wang, Yaqiao Luo, Luxin Zhang等

单位：作者团队来自罗格斯大学、Meta GenAI （含金量拉满）

发表：CVPR 2024

论文链接 ：https://arxiv.org/pdf/2312.03816

项目主页 ：https://zhang-zx.github.io/AVID/

代码链接 ：https://github.com/zhang-zx/AVID（代码不全）

关键词：视频修复、扩散模型、时序一致性、任意时长、结构引导、时序多扩散

想象这样一个场景：你拍摄了一段"汽车行驶在公路"的视频，想把普通汽车换成MINI Cooper，只需在第一帧框选汽车、输入文本提示，就能生成一段时空连贯的新视频，且未框选区域丝毫不改------这不是科幻电影里的特效，而是CVPR 2024 论文《AVID: Any-Length Video Inpainting with Diffusion Model》实现的核心能力。今天这篇精读，我们就拆解这款"视频编辑神器"的技术内核，看看它如何解决任意时长视频修复的三大核心痛点。

一、引言：视频修复的"三座大山"与AVID的破局之道

在扩散模型席卷图像生成领域后，文本引导的图像修复已相当成熟------但视频修复却一直是"老大难"。为什么？因为视频相比图像多了"时间维度"，这直接催生了三大核心挑战，也是AVID要解决的核心问题：

时序一致性：修复后的内容必须"前后统一"。比如把汽车改成绿色，全程都得是同一种绿色，不能从荧光绿渐变到墨绿；
任务适配性：不同修复任务对"结构保真度"要求天差地别。比如"物体替换"要保留原物体的运动轨迹，而"视频扩边"则完全没有原结构可参考；
长度通用性：输入视频时长不固定，模型得能稳健处理从几秒到几十秒的任意视频。

做过视频编辑的同学肯定懂：传统工具要么时序混乱（修完的物体突然变样），要么只能处理固定时长（长视频得截断分段修），要么任务单一（换物体和扩边得用两个工具）。而AVID的牛之处，就在于用一套框架解决了这三大痛点。

先看论文给出的核心效果（图1），感受下AVID的能力边界：从5.3秒的物体替换、2.7秒的纹理修改，到8.0秒的视频扩边，都能实现高质量修复，且修复区域与原视频无缝融合。

图1 AVID核心效果展示，第一行是原始视频及修复区域标注，中间是文本提示和视频时长，最下方是AVID的修复结果。可以看到无论是MINI Cooper的替换、枫叶的颜色修改，还是山间桥梁上火车的扩边，结果都兼具视觉真实感和时序连贯性。

二、相关工作：从图像到视频，修复技术的演进与瓶颈

要理解AVID的创新，得先理清视频修复技术的发展脉络。论文将相关工作分为三类，每一类都暴露了此前的技术瓶颈：

2.1 图像修复：扩散模型的天下，但无法延伸到视频

扩散模型已成为图像修复的主流：比如Latent Blended Diffusion通过融合生成图和原图的 latent 空间实现修复，SmartBrush则在物体中心数据集上微调掩码预测分支。但这些方法只考虑单帧空间信息，直接套用到视频上会出现"帧间跳跃"，完全没有时序一致性。

2.2 视频生成：时序能力有了，但缺乏精准修复的可控性

Text-to-Video模型（如CogVideo、Make-a-Video）能生成连贯视频，但它们是"从头生成"，而非"定向修复"。比如要替换视频中的汽车，这些模型可能会连背景一起改掉，无法精准定位掩码区域。

2.3 现有视频修复：要么灵活度低，要么效果差

少数尝试视频修复的方法也有明显缺陷：比如VideoComposer虽然支持掩码输入，但要求所有帧的掩码区域完全一致，灵活度极低；而基于DDIM反转的方法依赖文本提示而非掩码，很容易修改到非目标区域。

基于此，AVID的核心创新为：把图像修复的"精准可控"和视频生成的"时序连贯"结合起来，还解决了任意时长的问题，具体怎么做的？咱们往下拆。

三、核心方法：AVID的"三板斧"破解三大痛点

AVID的整体框架基于文本引导的图像扩散修复模型（Latent Diffusion Model），但通过三大核心模块的改造，实现了从"图像"到"任意时长视频"的跨越。先看整体框架（图2）：底层是图像扩散模型，中间叠加运动模块和结构引导模块，顶层是时序多扩散采样管道------三者分别对应解决时序一致性、任务适配性、长度通用性问题。

3.1 第一板斧：运动模块------让修复内容"动起来"且"不跑偏"

要解决时序一致性，关键是让模型学到帧间运动信息。AVID借鉴了AnimateDiff的思路，对基础图像扩散模型做了两个关键改造：

2D层转伪3D层：将原模型的2D卷积和注意力层，扩展为"空间-时间"伪3D层。比如空间卷积保持不变，时间维度上通过滑动窗口捕捉相邻帧的关联；
新增运动模块：在UNet的编码器和解码器之间，插入基于像素级时序自注意力的运动模块。这个模块专门学习帧间的运动轨迹，比如汽车行驶时的位置变化、树叶飘动的姿态变化。

更聪明的是，AVID只微调运动模块的参数，冻结预训练图像模型的权重------这样既能保留图像修复的高精度，又能快速学到时序信息，避免从头训练的巨大成本。

训练目标也相应调整为视频层面的噪声预测：，其中是视频帧的噪声版本，包含掩码视频、掩码序列和文本嵌入，确保模型在修复时同时参考空间掩码和时序运动。