VideoCrafter | 图文生成视频

leejet2023-11-08 18:19

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

paper arxiv.org/pdf/2310.19...
code github.com/ailab-cvc/v...

Abstract

商用的Text2Video模型可以生成高质量的视频，但是不开源，无法研究
VideoCrafter开源了2个模型，Text2Video和Image2Video，其中I2V可以生成1024X576高分辨率的电影质量的视频，在质量上超过其它开源模型，而且是业内第一个开源的的I2V模型。（I2V模型输入为text和reference image）

Contributions

T2V模型可以生成高分辨率高质量视频，训练集集为2千万视频和6亿张图像
I2V模型可以很好的保留参考图像的内容、结构和风格

Video Diffusion Models (VDMs)
ImagenVideo
DragNUWA

Methodology

Overview

包括2个关键部分：video vae 和 video diffusion

video vae 负责降低采样维度
- 视频数据X0喂给VAE编码器E，映射到隐层Z0，其可以以低维表示压缩的视频表征
- Z0通过解码器D反映射会视频数据空间，进行重构X0'
- VAE采用的是Stable Diffusion的VAE，将每一帧独自投影，不包含时间信息

video diffusion
- 对视频隐层Z0进行去噪，最后通过VAE解码器在像素空间生成视频
- 采用3D U-Net架构，包含了时间维度

Denoising 3D U-Net

每一个block包含卷积层、空间变换ST、时间变换TT

控制信号包括语义控制（文本提示）和动作速度控制（FPS帧率）
- 语义控制通过CA交叉注意力注入到网络中，其中 φi(zt) ∈ RN×di ϵ represents spatially flattened tokens of video latent, ϕ denotes the Clip text encoder, and y is the input text prompt.
- 时间步T和帧率FPS分别通过sinusoidal embedding（正弦嵌入）映射为向量，再通过2层的MLP映射为学习嵌入，最后通过逐元素相加融合

Text-Aligned Rich Image Embedding

文本提示聚焦在语义水平特征，而不是细节外表特征
在I2V模型中，需要额外集成条件输入，即图像提示。为了将图像信息用于视频模型中，需要将图像特征投影到文本对齐的嵌入空间，这样才能兼容（就是同一个特征空间）
Text Encoder 是 CLIP的文本编码器，其全局语义字符 fcls 和图像字幕对齐，主要在语义水平表征视频内容，同时很少捕捉细节。因此，需要利用来自CLIP image ViT （clip image encoder）的最后一层的全部面片patch的token Fvis = {fi}K i=0
为了和文本嵌入对齐，采用learnable投影网络 P 对 Fvis 映射到目标图像嵌入 Fimg = P(Fvis)
将文本嵌入Ftext和图像嵌入Fimg通过CA层融合，用于计算内部特征Fin

Experiments

开源里面，性能较好，但是和商用的Gen2在视觉质量和动作质量上有差距

在五边形战士里，仅次于Gen2

图像条件输入控制对比

T2V

I2V

Conclusions

开源了还可以
论文对比从没输过，实测效果却一般

References

github.com/Picsart-AI-... 这个I2V效果更好

上一篇：1108 早早聊 AI 资讯｜OpenAI 训 GPT-5 不差钱，人类已接近 AGI 阈值、OpenAI 开发者日对开源 AI 开发的影响、三星自研...

下一篇：Transformer模型-7- Decoder-笔记

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04Linux下V2Ray安装配置指南 05Claude Code 2.1.2 升级报错？别折腾了，一行命令搞定 06jdk21下载、安装（Windows、Linux、macOS）072025-04-03 Latex学习1——本地配置Latex + VScode环境 08【踩坑笔记】50系显卡适配的 PyTorch 安装 09Overleaf编译超时，超出免费计划编译时限（已解决）10UV安装并设置国内源