Datawhale【Sora原理与技术实战】| 学习笔记3

ToBeCertainToBeTall2024-03-15 15:32

一. 训练 Sora 模型

Open-Sora 在下图中总结了 Sora 可能使用的训练流程：

链路:

二. 数据预处理

目前主流 LLM 框架缺乏针对 video 数据统一便捷的管理和处理能力，且多模态数据处理标准方案缺失

复制代码

	pytorchvideo：主要支持加载和少量单 video 模态的tensor transform（翻转、扰动、采样等）
	SORA 官方仅模糊提及使用了 DALLE3 来生成 caption，细粒度的"caption --> spacetime patch"建模比较关键
	从 SORA 模型效果看，数据需要有变化的时长、分辨率和宽高比

Data-Juicer 扩展了对多模态数据的支持：

复制代码

	支持视频数据的高性能 IO 和处理
	支持并行化数据加载：lazy load with pyAV and ffmpeg；多模态数据路径签名并行化算子处理：支持单机多核；GPU 调用；Ray 多机分布式
	[WIP]  分布式调度优化；分布式存储优化
	基础算子（视频时空维度）

三. 视频 VQVAE

四. Diffusion Transformer

通过结合 diffusion model 和 transformer，从而达到可以 scale up model 来提升图像生成质量的效果

Reference：

【📖学习手册】

【GitHub】

Datawhale【Sora原理与技术实战】| 学习笔记3

目录

一. 训练 Sora 模型

二. 数据预处理

三. 视频 VQVAE

四. Diffusion Transformer