Datawhale【Sora原理与技术实战】| 学习笔记3

目录

  • [一. 训练 Sora 模型](#一. 训练 Sora 模型)
  • [二. 数据预处理](#二. 数据预处理)
  • [三. 视频 VQVAE](#三. 视频 VQVAE)
  • [四. Diffusion Transformer](#四. Diffusion Transformer)

一. 训练 Sora 模型

Open-Sora 在下图中总结了 Sora 可能使用的训练流程:

链路:

二. 数据预处理

目前主流 LLM 框架缺乏针对 video 数据 统一便捷的管理和处理能力,且多模态数据处理标准方案缺失

	pytorchvideo:主要支持加载和少量单 video 模态的tensor transform(翻转、扰动、采样等)
	SORA 官方仅模糊提及使用了 DALLE3 来生成 caption,细粒度的"caption --> spacetime patch"建模比较关键
	从 SORA 模型效果看,数据需要有变化的时长、分辨率和宽高比

Data-Juicer 扩展了对多模态数据的支持:

	支持视频数据的高性能 IO 和处理
	支持并行化数据加载:lazy load with pyAV and ffmpeg;多模态数据路径签名并行化算子处理:支持单机多核;GPU 调用;Ray 多机分布式
	[WIP]  分布式调度优化;分布式存储优化
	基础算子(视频时空维度)

三. 视频 VQVAE

四. Diffusion Transformer

通过结合 diffusion model 和 transformer,从而达到可以 scale up model 来提升图像生成质量的效果


Reference:

📖学习手册

【GitHub】


相关推荐
QQ同步助手13 分钟前
如何正确使用人工智能:开启智慧学习与创新之旅
人工智能·学习·百度
流浪的小新21 分钟前
【AI】人工智能、LLM学习资源汇总
人工智能·学习
A懿轩A1 小时前
C/C++ 数据结构与算法【数组】 数组详细解析【日常学习,考研必备】带图+详细代码
c语言·数据结构·c++·学习·考研·算法·数组
云边有个稻草人1 小时前
【优选算法】—复写零(双指针算法)
笔记·算法·双指针算法
南宫生9 小时前
力扣-图论-17【算法学习day.67】
java·学习·算法·leetcode·图论
sanguine__9 小时前
Web APIs学习 (操作DOM BOM)
学习
冷眼看人间恩怨9 小时前
【Qt笔记】QDockWidget控件详解
c++·笔记·qt·qdockwidget
数据的世界0111 小时前
.NET开发人员学习书籍推荐
学习·.net
四口鲸鱼爱吃盐12 小时前
CVPR2024 | 通过集成渐近正态分布学习实现强可迁移对抗攻击
学习
OopspoO14 小时前
qcow2镜像大小压缩
学习·性能优化