【字节拥抱开源】字节团队开源视频模型 ContentV: 有限算力下的视频生成模型高效训练

本项目提出了ContentV框架,通过三项关键创新高效加速基于DiT的视频生成模型训练:

  • 极简架构设计,最大化复用预训练图像生成模型进行视频合成
  • 系统化的多阶段训练策略,利用流匹配技术提升效率
  • 经济高效的人类反馈强化学习框架,无需额外人工标注即可提升生成质量

我们开源的80亿参数模型(基于Stable Diffusion 3.5 Large和Wan-VAE)仅用4周时间在256×64GB NPU上训练,就取得了VBench评测85.14分的业界最佳成绩。

⚡ 快速开始

推荐PyTorch版本
  • GPU版本:torch >= 2.3.1 (CUDA >= 12.2)
  • NPU版本:torch和torch-npu >= 2.1.0 (CANN >= 8.0.RC2)。请参考昇腾PyTorch扩展安装torch-npu。
安装步骤
sh 复制代码
git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文生视频

sh 复制代码
## For GPU
python3 demo.py
## For NPU
USE_ASCEND_NPU=1 python3 demo.py

24GB消费级显卡可以使用,建议开启model offload。

📊 VBench

Model Total Score Quality Score Semantic Score Human Action Scene Dynamic Degree Multiple Objects Appear. Style
Wan2.1-14B 86.22 86.67 84.44 99.20 61.24 94.26 86.59 21.59
ContentV (Long) 85.14 86.64 79.12 96.80 57.38 83.05 71.41 23.02
Goku† 84.85 85.60 81.87 97.60 57.08 76.11 79.48 23.08
Open-Sora 2.0 84.34 85.40 80.12 95.40 52.71 71.39 77.72 22.98
Sora† 84.28 85.51 79.35 98.20 56.95 79.91 70.85 24.76
ContentV (Short) 84.11 86.23 75.61 89.60 44.02 79.26 74.58 21.21
EasyAnimate 5.1 83.42 85.03 77.01 95.60 54.31 57.15 66.85 23.06
Kling 1.6† 83.40 85.00 76.99 96.20 55.57 62.22 63.99 20.75
HunyuanVideo 83.24 85.09 75.82 94.40 53.88 70.83 68.55 19.80
CogVideoX-5B 81.61 82.75 77.04 99.40 53.20 70.97 62.11 24.91
Pika-1.0† 80.69 82.92 71.77 86.20 49.83 47.50 43.08 22.26
VideoCrafter-2.0 80.44 82.20 73.42 95.00 55.29 42.50 40.66 25.13
AnimateDiff-V2 80.27 82.90 69.75 92.60 50.19 40.83 36.88 22.42
OpenSora 1.2 79.23 80.71 73.30 85.80 42.47 47.22 58.41 23.89

❤️ 感谢

相关推荐
双翌视觉6 小时前
双翌全自动影像测量仪:以微米精度打造智能化制造
人工智能·机器学习·制造
编程小白_正在努力中6 小时前
神经网络深度解析:从神经元到深度学习的进化之路
人工智能·深度学习·神经网络·机器学习
无风听海7 小时前
神经网络之经验风险最小化
人工智能·深度学习·神经网络
音视频牛哥7 小时前
轻量级RTSP服务的工程化设计与应用:从移动端到边缘设备的实时媒体架构
人工智能·计算机视觉·音视频·音视频开发·rtsp播放器·安卓rtsp服务器·安卓实现ipc功能
该用户已不存在7 小时前
在 Gemini CLI 中使用 Gemini 3 Pro 实操指南
人工智能·ai编程·gemini
东皇太星7 小时前
ResNet (2015)(卷积神经网络)
人工智能·神经网络·cnn
aircrushin8 小时前
TRAE SOLO 中国版,正式发布!AI 编程的 "Solo" 时代来了?
前端·人工智能
Java中文社群8 小时前
保姆级教程:3分钟带你轻松搭建N8N自动化平台!(内附视频)
人工智能·工作流引擎
是Yu欸8 小时前
DevUI MateChat 技术演进:UI 与逻辑解耦的声明式 AI 交互架构
前端·人工智能·ui·ai·前端框架·devui·metachat
我不是QI8 小时前
周志华《机器学习---西瓜书》 一
人工智能·python·机器学习·ai