前言

前段时间，一款AI视频应用及其创始人刷爆了科技圈，顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司，他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了，甚至已经用的非常熟练，其中不乏常见的Stable Diffusion以及Midjourney等各种模型和产品。反观文生视频模型及其衍生产品却进展迟缓，尽管几家当红的公司宣传自己的产品非常厉害，但实际上都面临或多或少的问题。

文生视频的难点

可供训练的有效数据少：对于任何深度学习模型来说，数据质量和数量决定了它的性能上限。不同于语言模型或者视觉模型，这些模型训练的数据很容易就能在开源社区找到，并且质量和数量都较为可观。而文生视频模型训练需要的文本-视频对就没那么容易找到了。
计算难度大: 视频数据比图片数据多了时间上的维度。假设已经有一批文本-视频对数据，文生视频模型的训练也只能用非常短的视频片段进行训练，因为越长的视频越难保证帧与帧之间的一致性和连贯性。

实现文生视频的方法

早期的生成对抗网络

文生视频是个非常新的研究方向，早期研究主要使用基于 Gan 和 Vae 来实现。如VideoGan，是一个双通道模型，把视频抽象分成前景和背景，分别通过这两个通道把噪声转视频帧再合并到一块，是最早将GAN用于视频生成的框架。

虽然这些工作为文生视频奠定了基础，但它们的应用范围非常有限，仅限于低分辨率（大多都是128*128像素）以及视频中目标单一的情况。

近期的扩散模型

而近两年来，随着扩散模型的发展以及在图像领域取得的成就，一些研究者也逐渐把研究重心转移到扩散模型上来。因为之前调研使用过Text2Video-Zero这个模型，接下来就简要介绍一下这个模型及其效果。

顾名思义，Text2Video-Zero 是一种零样本模型，即无需使用任何文本 - 视频对数据，就能把文生图迁移到文生视频，因此可以直接使用stable diffusion相关的模型，如sd-1.5或sdxl等。整体思路可以概述如下：

从第二帧开始每一帧都不进行随机噪声采样，而是从前一帧变化来，通过一个运动向量叠加而成
Unet的注意力机制修改为帧与帧之间的注意力机制

从论文中给出的例子来看，能够生成一些简单的视频我也尝试生成一段简单的视频，效果还是有限的。细看会发现草的细节不够好，存在畸变，而且河流是简单的左右对称。虽然调整了采样率，但效果还是不太理想。

结论

从实际效果来看，目前的文生视频效果尚未达到生成电影级视频的能力。猜测接下来开源的一些模型可能聚焦用更好的方法捕捉视频帧之间的关联，从图像零样本迁移到视频，毕竟这才是真正的多模型大模型。而一批商业化的公司可能还会花费大量的人力财力去构建私有的高质量文本-视频数据，以提升视频在细节方面的效果，从而拉开与别人的差距。

零样本从文本直接生成视频：Text2video-zero的试用和启发

前言

文生视频的难点

实现文生视频的方法

早期的生成对抗网络

近期的扩散模型

结论