Open-Sora:开源版的Sora

项目简介

本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前我们资源有限仅搭建了基础架构,无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练,当前版本离目标差距巨大,仍需持续完善和快速迭代,欢迎Pull request!!!

项目阶段:

  • 基本的
  1. 设置代码库并在景观数据集上训练无条件模型。

  2. 训练可提高分辨率和持续时间的模型。

  • 扩展
  1. 在景观数据集上进行text2video实验。

  2. 在 video2text 数据集上训练 1080p 模型。

  3. 具有更多条件的控制模型。

  4. 在 video2text 数据集上训练 1080p 模型。

  5. 具有更多条件的控制模型。

仓库结构

要求和安装

推荐要求如下。

  • Python >= 3.8

  • Pytorch >= 1.13.1

  • CUDA 版本 >= 11.7

  • 安装所需的包:

用法

数据集

参考Data.md

Video-VQVAE (VideoGPT)

训练

请参阅原始存储库。使用 scripts/train_vqvae.py 脚本训练 Video-VQVAE。执行 python scripts/train_vqvae.py -h 以获取有关所有可用训练设置的信息。下面列出了更多相关设置的子集以及默认值。

VQ-VAE 特定设置
  • --embedding_dim :码本嵌入的维数

  • --n_codes 2048 :码本中的代码数量

  • --n_hiddens 240 :残差块中隐藏特征的数量

  • --n_res_layers 4 :剩余块的数量

  • --downsample 4 4 4 :编码器的 T H W 下采样步长

训练设置
  • --gpus 2 :分布式训练的GPU数量

  • --sync_batchnorm :使用 > 1 GPU 时使用 SyncBatchNorm 而不是 BatchNorm3d

  • --gradient_clip_val 1 :训练的梯度裁剪阈值

  • --batch_size 16 :每个 GPU 的批量大小

  • --num_workers 8 :每个 DataLoader 的工作人员数量

数据集设置
  • --data_path <path> : hdf5 文件或包含 train 和 test 文件夹以及视频子目录的文件夹的路径

  • --resolution 128 :训练的空间分辨率

  • --sequence_length 16 :时间分辨率,或视频剪辑长度

重建

项目链接

相关推荐
金融Tech趋势派44 分钟前
Hermes Agent开源45天登顶GitHub,深度解析其记忆机制与部署方案
人工智能·微信·开源·github·企业微信·openclaw·hermes agent
万岳软件开发小城1 小时前
从SaaS到私有化部署:食堂采购系统源码的开发技术选型分析
开源·源码·软件开发·食堂采购系统源码·食堂采购软件开发·食堂采购平台搭建·erp系统开发
z6494315081 小时前
【Python开源-单目测距】单目无人机多视角测距:DJI RTK图像 → 地面目标3D坐标与距离,平均RE仅2.12%
python·计算机视觉·开源·无人机
大飞哥~BigFei1 小时前
缓存一致性终极解决方案之Facebook租约机制的开源实现集成改造
java·缓存·开源
Dontla1 小时前
Prometheus介绍(开源系统监控与告警工具)(时间序列数据库TSDB、标签化label-based多维分析、Pull模型、PromQL查询语言)
数据库·开源·prometheus
东北甜妹3 小时前
Docker 基础
linux·docker·开源
信创DevOps先锋4 小时前
企业级开源治理新选择:Gitee CodePecker SCA如何重塑软件供应链安全
安全·gitee·开源
蓝耘智算4 小时前
蓝耘元生代云 MaaS 平台上线 GLM-5.1,8 小时自主 Agent 开源旗舰来袭!
开源
学页4 小时前
开源在线教育系统的架构设计与性能优化实践
性能优化·开源
Smoothcloud润云4 小时前
Gemma 4 深度拆解:Google 如何用 31B 参数重新定义开源模型的性能天花板
开源