MarDini：Meta与KAUST合作的AI视频插帧技术，树立视频生成新标杆

MarDini 详细总结

概述： Mardini 是 Meta 与沙特阿拉伯的阿卜杜拉国王科技大学（KAUST）合作推出的新一代视频扩散模型系列。它通过将掩码自回归（MAR）的优势整合到统一的扩散模型（DM）框架中，实现了视频插值、图像到视频的转换以及视频扩展等多种视频生成任务。

Mardini 通过其先进的视频生成技术，能够适应各种复杂的条件，处理任意数量的遮蔽帧，并在视频序列中的任何位置进行操作。这一能力使得单一模型便能够执行多种任务，如填补视频中间的空白帧（视频插值）、将静态图像转化为动态视频（图像到视频的生成）、以及扩展视频内容（遮蔽一半的帧）。Mardini 的设计优化了计算资源的使用，将大部分算力集中在低分辨率的规划阶段，这样既降低了成本，又使得大规模的空间-时间注意力机制成为现实。在视频插值领域，Mardini 达到了前所未有的高标准；并且，它能够在较少的推理步骤中，高效地产出与那些成本更高的高级图像到视频模型相匹敌的视频内容。

功能特色：

视频插值： MarDini 能够使用第一帧和最后一帧作为调节信号生成中间帧，实现视频插值。当边界帧相同时，可以创建无缝循环视频。
图像到视频的转换： 通过使用放置在中间位置的一个参考帧作为条件输入，并生成额外的帧来演示此功能。例如，包含以8FPS 渲染的17帧，可生成流畅的2秒视频。
视频扩展： 通过调节任何时长的现有视频来扩展视频，例如从5帧参考视频生成2秒扩展，为每个序列添加12个新帧。
高效的设计： MarDini 的设计将大部分计算资源分配给低分辨率规划模型，使得在大规模上进行空间-时间注意力成为可能。
灵活性和性能： MarDini 以较少的步骤生成高质量视频，显著提升了创作的灵活性与效率。

项目入口：

更多关于 MarDini 的信息可以通过访问项目入口了解：Mardini 项目指南 | MeoAI。

技术原理与细节：

技术细节： Mardini 的工作原理由两个部分组成：规划模型和生成模型。规划模型利用掩码自回归（MAR）方法来解释低分辨率的输入帧，生成需要创建的帧的指导信号。然后，轻量级的生成模型通过扩散过程来生成高分辨率的详细帧。

训练与应用： 与许多需要复杂预训练图像模型的视频模型不同，Mardini 可以从零开始使用未标记的视频数据进行训练。它采用了渐进式训练策略，通过灵活地调整训练过程中帧的掩码方式，使得模型能够更好地应对不同的帧配置。

模型架构：
- Mardini 的核心架构由两部分组成：规划模型和生成模型。
- 规划模型： 利用掩码自回归（MAR）方法来解释低分辨率的输入帧，并生成需要创建的帧的指导信号。这一过程涉及到对输入帧的全局条件信号进行自回归编码。
- 生成模型： 接收来自规划模型的信号，并通过扩散过程生成高分辨率的详细帧。这一过程确保了最终视频的流畅性和视觉效果。
掩码自回归（MAR）：
- MAR 负责处理长期时间建模，通过在低分辨率下操作更多参数来实现。
- MAR 方法允许模型根据任意数量的掩码帧在任意帧位置进行视频生成，支持视频插值、图像到视频的转换以及视频扩展等多种视频生成任务。
扩散模型（DM）：
- DM 专注于详细的空间建模，并在高分辨率下操作较少参数。
- 扩散模型通过逐步去除噪声的方式，从低分辨率到高分辨率生成视频帧。
训练策略：
- Mardini 能够从零开始使用未标记的视频数据进行训练，不依赖于复杂的预训练图像模型。
- 它采用了渐进式训练策略，通过灵活地调整训练过程中帧的掩码方式，使得模型能够更好地应对不同的帧配置。
计算资源分配：
- Mardini 的设计将大部分计算资源分配给低分辨率规划模型，使得在大规模上进行空间-时间注意力成为可能。
- 这种设计使得 Mardini 在推理期间内存效率高且速度快，允许大规模部署计算密集型的空间-时间注意力机制。
灵活性和性能：
- Mardini 以其灵活性和性能著称，能够处理视频插值、图像转视频生成和视频扩展等多种任务。
- 它以较少的步骤生成高质量视频，显著提升了创作的灵活性与效率。
端到端训练：
- Mardini 通过掩码帧级别的扩散损失进行端到端训练，这使得模型能够直接在帧级别使用掩码自回归损失。

MarDini 实验结果

1. 图像到视频结果： Mardini 的主要应用之一是图像到视频的生成。实验中，通过使用一个放置在中间位置的参考帧作为条件输入，并生成16个额外的帧来演示此功能。官方生成视频示例显示，包含以8FPS渲染的17帧，可以生成流畅的2秒视频。

2. 视频扩展结果： Mardini 还能够通过调节任何时长的现有视频来扩展视频。实验中，从5帧参考视频生成2秒扩展，为每个序列添加12个新帧。

3. 视频插值结果： Mardini 通过使用第一帧和最后一帧作为调节信号生成中间帧来实现视频插值。当这些边界帧相同时，Mardini 可以创建无缝循环视频。

**4. 慢动作视频的自回归生成：**Mardini 通过使用 MAR（掩码自回归）进行高级规划，支持自回归推理，能够生成超出训练中定义的额外帧。实验中展示了通过分层自回归生成来实现慢动作视频的生成：从视频开始，将其分割成多个片段，扩展每个片段，并把扩展的片段作为新视频进行递归插值。例如，从4张图片开始，Mardini 使用一个17帧窗口将它们扩展到128帧的慢动作视频（64倍扩展）。这表明 MarDini 并不受训练窗口大小的限制，强调了其在长期视频生成方面的潜力。

**5. 零样本3D视图合成：**尽管 MarDini 仅在视频数据上进行训练，但它显示出了初步的空间理解，暗示了其在3D应用中的潜力。在实验中，Mardini 通过使用固定对象的两个视图作为第一和最后一参考帧，生成了中间帧，类似于视频插值任务。模型有效地产生了令人信服的、3D一致的视图，展示了其在3D生成方面的前景。值得注意的是，在这些实验中没有使用相机运动控制信号。研究者计划在未来的工作中探索 MarDini 在具有更好控制的3D数据上的性能。

6. 性能评估： 在性能方面，Mardini 设定了新的基准，以更少的步骤生成高质量视频，这使得它在成本和时间上都比更复杂的替代方案更具优势。官方研究论文指出，"我们的研究表明，我们的建模策略在多种插值和动画基准测试中表现出竞争力，同时在可比参数规模下降低了计算需求。"

7. 灵活性和效率： Mardini 的一个显著特点就是其灵活性和性能。它不仅强大而且高效，适用于更大规模的任务。这个模型能够处理视频插值、图像转视频生成和视频扩展等多种任务，无论是平滑现有的视频片段，还是从头开始创建完整的序列，它都能游刃有余。

适用场景：

视频内容创作： 适用于需要填补视频缺失帧、将单张图片转换为动态场景或扩展短片段视频的场景。
视频编辑和后期制作： 适用于视频编辑和后期制作中，需要对视频进行插值、扩展或转换的场景。
动画制作： 适用于需要从静态图像生成动画或增强现有动画内容的场景。