Datawhale【Sora原理与技术实战】| 学习笔记3

目录

  • [一. 训练 Sora 模型](#一. 训练 Sora 模型)
  • [二. 数据预处理](#二. 数据预处理)
  • [三. 视频 VQVAE](#三. 视频 VQVAE)
  • [四. Diffusion Transformer](#四. Diffusion Transformer)

一. 训练 Sora 模型

Open-Sora 在下图中总结了 Sora 可能使用的训练流程:

链路:

二. 数据预处理

目前主流 LLM 框架缺乏针对 video 数据 统一便捷的管理和处理能力,且多模态数据处理标准方案缺失

复制代码
	pytorchvideo:主要支持加载和少量单 video 模态的tensor transform(翻转、扰动、采样等)
	SORA 官方仅模糊提及使用了 DALLE3 来生成 caption,细粒度的"caption --> spacetime patch"建模比较关键
	从 SORA 模型效果看,数据需要有变化的时长、分辨率和宽高比

Data-Juicer 扩展了对多模态数据的支持:

复制代码
	支持视频数据的高性能 IO 和处理
	支持并行化数据加载:lazy load with pyAV and ffmpeg;多模态数据路径签名并行化算子处理:支持单机多核;GPU 调用;Ray 多机分布式
	[WIP]  分布式调度优化;分布式存储优化
	基础算子(视频时空维度)

三. 视频 VQVAE

四. Diffusion Transformer

通过结合 diffusion model 和 transformer,从而达到可以 scale up model 来提升图像生成质量的效果


Reference:

📖学习手册

【GitHub】


相关推荐
scdifsn4 小时前
动手学深度学习12.7. 参数服务器-笔记&练习(PyTorch)
pytorch·笔记·深度学习·分布式计算·数据并行·参数服务器
恰薯条的屑海鸥4 小时前
零基础在实践中学习网络安全-皮卡丘靶场(第十六期-SSRF模块)
数据库·学习·安全·web安全·渗透测试·网络安全学习
喜欢吃燃面5 小时前
C++刷题:日期模拟(1)
c++·学习·算法
2301_797604246 小时前
学习记录:DAY32
学习
蓝婷儿6 小时前
6个月Python学习计划 Day 16 - 面向对象编程(OOP)基础
开发语言·python·学习
叶子2024227 小时前
学习使用YOLO的predict函数使用
人工智能·学习·yolo
jackson凌7 小时前
【Java学习笔记】SringBuffer类(重点)
java·笔记·学习
huangyuchi.7 小时前
【Linux】LInux下第一个程序:进度条
linux·运维·服务器·笔记·进度条·c/c++
黑客老李8 小时前
JavaSec | SpringAOP 链学习分析
java·运维·服务器·开发语言·学习·apache·memcached
海的诗篇_9 小时前
移除元素-JavaScript【算法学习day.04】
javascript·学习·算法