VideoGPT:Video Generation using VQ-VAE and Transformers

1.introduction

对于视频展示,选择哪种模型比较好?基于似然->transformers自回归。在没有空间和时间溶于的降维潜在空间中进行自回归建模是否优于在所有空间和时间像素级别上的建模?选择前者:自然图像和视频包括了大量的空间和时间冗余,这些冗余可以通过学习高分辨率输入的去噪降维编码来消除,例如,空间和时间维度上的4倍降采样会导致64倍的分辨率降低,在潜在空间建模,不是像素空间,可以提高采样速度和计算需求。VideoGPT是基于VQVAE和GPT的视频生成架构,

VideoGPT利用3D conv和transposed conv along with axial attention,在VQVAE中的编码器中学习从视频帧原始像素中获取降维离散潜在值,利用GPT进行自回归。

2.VideoGPT

2.1 learning latent code

第一阶段:为了学习一组离散的潜在code,首先在视频数据上训练一个VQVAE,编码器结构包括一系列在时空维度上进行下采样的3D卷积,如图所示,

2.2 learning a prior

第二阶段:Image-GPT,学习第一阶段VQVAE潜在code的先验。

3.Experiments

3.1 Training details

所有的图像数据在训练前被缩放在-0.5-0.5之间,训练64x64的视频,长度是16.

相关推荐
莫扎特不唱摇篮曲2 小时前
dify + ollama + deepseek-r1+ stable-diffusion 构建绘画智能体
stable diffusion
RichardLau_Cx2 天前
【AI赋能】AI 工具生成视频教材:从创意到成品的全流程指南
人工智能·aigc·音视频·software·grok·自媒体·sora
Liudef062 天前
国内支持Stable Diffusion模型的平台
ai作画·stable diffusion·人工智能作画
嘟嘟Listing2 天前
ubuntu局域网部署stable-diffusion-webui记录
stable diffusion
乱世刀疤3 天前
AI绘画软件Stable Diffusion详解教程(7):图生图基础篇
人工智能·ai作画·stable diffusion
不确定性确定你我3 天前
Checkpoint 模型与Stable Diffusion XL(SDXL)模型的区别
人工智能·stable diffusion
小小码农一只3 天前
轻松部署 Stable Diffusion WebUI 并实现局域网共享访问:解决 Conda Python 版本不为 3.10.6 的难题
python·stable diffusion·conda
Liudef063 天前
Stable Diffusion模型高清算法模型类详解
人工智能·算法·ai作画·stable diffusion
紫雾凌寒4 天前
计算机视觉|从0到1揭秘Diffusion:图像生成领域的新革命
深度学习·计算机视觉·stable diffusion·aigc·文生图·图像分割·diffusion
Liudef064 天前
Stable Diffusion模型Pony系列模型深度解析
人工智能·ai作画·stable diffusion·人工智能作画