Open-Sora:开源版的Sora

项目简介

本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前我们资源有限仅搭建了基础架构,无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练,当前版本离目标差距巨大,仍需持续完善和快速迭代,欢迎Pull request!!!

项目阶段:

  • 基本的
  1. 设置代码库并在景观数据集上训练无条件模型。

  2. 训练可提高分辨率和持续时间的模型。

  • 扩展
  1. 在景观数据集上进行text2video实验。

  2. 在 video2text 数据集上训练 1080p 模型。

  3. 具有更多条件的控制模型。

  4. 在 video2text 数据集上训练 1080p 模型。

  5. 具有更多条件的控制模型。

仓库结构

要求和安装

推荐要求如下。

  • Python >= 3.8

  • Pytorch >= 1.13.1

  • CUDA 版本 >= 11.7

  • 安装所需的包:

用法

数据集

参考Data.md

Video-VQVAE (VideoGPT)

训练

请参阅原始存储库。使用 scripts/train_vqvae.py 脚本训练 Video-VQVAE。执行 python scripts/train_vqvae.py -h 以获取有关所有可用训练设置的信息。下面列出了更多相关设置的子集以及默认值。

VQ-VAE 特定设置
  • --embedding_dim :码本嵌入的维数

  • --n_codes 2048 :码本中的代码数量

  • --n_hiddens 240 :残差块中隐藏特征的数量

  • --n_res_layers 4 :剩余块的数量

  • --downsample 4 4 4 :编码器的 T H W 下采样步长

训练设置
  • --gpus 2 :分布式训练的GPU数量

  • --sync_batchnorm :使用 > 1 GPU 时使用 SyncBatchNorm 而不是 BatchNorm3d

  • --gradient_clip_val 1 :训练的梯度裁剪阈值

  • --batch_size 16 :每个 GPU 的批量大小

  • --num_workers 8 :每个 DataLoader 的工作人员数量

数据集设置
  • --data_path <path> : hdf5 文件或包含 train 和 test 文件夹以及视频子目录的文件夹的路径

  • --resolution 128 :训练的空间分辨率

  • --sequence_length 16 :时间分辨率,或视频剪辑长度

重建

项目链接

相关推荐
“码”力全开12 小时前
解耦异构算力与多协议接入:基于Docker与源码交付的开源企业级GB28181/RTSP边缘计算AI视频管理平台架构深度解析
人工智能·docker·开源
小北的AI科技分享13 小时前
指尖上的工业革命:Open Claw如何重塑现代抓取技术
开源·抓取·
冬奇Lab14 小时前
每日一个开源项目(第117篇):Recordly - 零剪辑基础也能制作电影级产品演示视频
开源·资讯
FIT2CLOUD飞致云15 小时前
支持AI网关和Skills Hub,1Panel企业版正式发布
ai·开源·1panel
lzguornzhang16 小时前
VMware Workstation Pro 25H2 安装 openEuler 24.03 LTS SP3 操作系统完整教程
开源
cup1117 小时前
[开源] 全屏时钟 / Full Clock:放弃 time.is,用 Svelte 5 写了一个极致纯净的全屏时钟,解决秒数焦虑
开源·工具·时钟·效率·svelte
java_cj17 小时前
数据库范式化设计与性能优化全攻略
数据库·后端·性能优化·架构·开源
Lethehong17 小时前
拒绝吃灰!手把手教你把“全能AI助理”无缝塞进微信/QQ,打造属于你的数字分身
人工智能·开源·蓝耘元生代·蓝耘maas·qwenpaw
kTR2hD1qb18 小时前
近期使用Claude Code + Opus4.7设计开发了一个开源项目:Qianyuan AI Agentic Framework
人工智能·开源
妄想出头的工业炼药师19 小时前
激光雷达点云退化多地图会话
算法·开源