文生视频算法

文生视频

Sora
- 解决问题：
- 解决思路：
CogVideoX
- 解决问题：
- 解决思路：
[Stable Video Diffusion（SVD）](#Stable Video Diffusion（SVD）)
- 解决问题：
- 解决思路：

主流AI视频技术框架：

Sora

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
参考文章

解决问题：

模拟物理现实世界，生成逼真视频

解决思路：

Sora模型的核心架构图示

Sora主要包括三个部分：

3D VAE模型 ：3D VAE Encoder能在时间和空间维度上将输入的原始视频映射到Latent空间中。同时3D VAE Decoder能将扩散模型生成的视频Latent特征进行重建，获得像素级视频内容。
基于DiT的扩散模型架构 ：使用类似于ViT（视觉转换器）的处理方式将视频的Latent特征进行Patch化，并进行扩散过程输出去噪后的视频Latent特征。
一个类似CLIP模型架构的条件接收机制：接收经过大型语言模型（LLM）增强的用户输入Prompt和视觉信息的Prompt，用以引导扩散模型生成具有特定风格或者主题的视频内容。

3D VAE架构：

其中先使用一个Visual Encoder模型将视频数据（空间和时间维度）压缩编码到Latent特征空间，获得一个3D visual patch array，接着将整个Latent特征分解成spacetime patches，最后再排列组合成为一个visual patches向量。

CogVideoX

CogVideoX
参考文章

解决问题：

模拟物理现实世界，生成逼真视频

解决思路：

CogVideoX-2B模型的完整架构：

CogVideoX主要包括三个部分：

3D Causal VAE模型： 3D Causal VAE Encoder能在时间和空间维度上将输入的原始视频映射到Latent空间中。同时3D Causal VAE Decoder能将扩散模型生成的视频Latent特征进行重建，获得像素级视频内容。
DiT Expert模型： 将视频信息的Latent特征和文本信息的Embeddings特征进行Concat后，再Patch化，并进行扩散过程输出去噪后的视频Latent特征。
Text Encoder模型： Text Encoder模型将输入的文本Prompt编码成Text Embeddings，作为条件注入DiT Expert模型中。CogVideoX中选用T5-XXL作为Text Encoder，Text Encoder具备较强的文本信息提取能力。

3D VAE架构

主要包括一个Encoder（编码器）、一个Decoder（解码器）以及一个Latent Space Regularizer（潜在空间正则器）：

编码器： 用于将输入视频数据转换为Latent Feature。这一过程中，编码器会通过四个下采样阶段逐步减少视频数据的空间和时间分辨率。
解码器： 将视频数据的Latent Feature转换成原始的像素级视频。解码器也包含四个对称的上采样阶段，用于恢复视频数据的空间和时间分辨率。
潜在空间正则化器： 通过KL散度来约束高斯Latent空间，对编码器生成的Latent Feature进行正则化。这对于AI视频大模型的生成效果和稳定性至关重要。

3D Expert Transformer的完整结构图

Text Encoder部分（T5-xxl）：