VidSketch：具有扩散控制的手绘草图驱动视频生成

浙大提出的VidSketch是第一个能够仅通过任意数量的手绘草图和简单的文本提示来生成高质量视频动画的应用程序。该方法训练是在单个 RTX4090 GPU 上进行的，针对每个动作类别使用一个小型、高质量的数据集。VidSketch方法使所有用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

上图为VidSketch生成的视频动画。该方法使用手绘草图序列（相应的草图放置在各个帧的左上角，从上到下的示例由 1、2、4 和 6 个草图引导）和简单的文本提示生成视频动画。这使得创建高质量、时空一致的视频动画成为可能，打破了艺术行业的障碍。VidSketch方法使所有技能水平的用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

论文介绍

随着生成式人工智能的进步，先前研究已经实现了从手绘草图生成唯美图像的任务，满足了大众对于绘画的需求。但这些方法局限于静态图像，缺乏对手绘草图生成视频动画的控制能力。

针对这一问题，论文提出的VidSketch是第一个能够直接从任意数量的手绘草图和简单的文本提示生成高质量视频动画的方法，弥合了普通用户和专业艺术家之间的鸿沟。

具体而言，该方法引入了一种基于级别的草图控制策略，在生成过程中自动调整草图的引导强度，以适应具有不同绘画水平的用户。此外，还设计了时间空间注意机制来增强生成的视频动画的时空一致性，显著提高跨帧连贯性。

不同类别的手绘草图

不同风格的 VidSketch

它是如何工作的？

手绘草图驱动的视频生成

VidSketch 的管道。在训练期间使用按类型分类的高质量小规模视频数据集来训练增强型 SparseCausal-Attention (SC-Attention) 和时间注意模块，从而提高视频动画的时空一致性。在推理期间，用户只需输入提示和草图序列即可生成量身定制的高质量动画。具体来说，第一帧是使用 T2I-Adapter 生成的，而整个草图序列由 Inflated T2I-Adapter 处理以提取信息，该信息被注入 VDM 的上采样层以指导视频生成。

训练方法遵循传统的 VDM 框架。首先在互联网上进行了广泛的搜索，为每个动作类别收集了 8-12 个高质量的训练视频。随后为每个动作类别分别训练了 SparseCausal-Attention 和 Temp-Attention 模块。这种策略有效地缓解了高质量视频数据有限的挑战，增强了生成视频的时空一致性和质量。