Datawhale【Sora原理与技术实战】| 学习笔记3

目录

  • [一. 训练 Sora 模型](#一. 训练 Sora 模型)
  • [二. 数据预处理](#二. 数据预处理)
  • [三. 视频 VQVAE](#三. 视频 VQVAE)
  • [四. Diffusion Transformer](#四. Diffusion Transformer)

一. 训练 Sora 模型

Open-Sora 在下图中总结了 Sora 可能使用的训练流程:

链路:

二. 数据预处理

目前主流 LLM 框架缺乏针对 video 数据 统一便捷的管理和处理能力,且多模态数据处理标准方案缺失

复制代码
	pytorchvideo:主要支持加载和少量单 video 模态的tensor transform(翻转、扰动、采样等)
	SORA 官方仅模糊提及使用了 DALLE3 来生成 caption,细粒度的"caption --> spacetime patch"建模比较关键
	从 SORA 模型效果看,数据需要有变化的时长、分辨率和宽高比

Data-Juicer 扩展了对多模态数据的支持:

复制代码
	支持视频数据的高性能 IO 和处理
	支持并行化数据加载:lazy load with pyAV and ffmpeg;多模态数据路径签名并行化算子处理:支持单机多核;GPU 调用;Ray 多机分布式
	[WIP]  分布式调度优化;分布式存储优化
	基础算子(视频时空维度)

三. 视频 VQVAE

四. Diffusion Transformer

通过结合 diffusion model 和 transformer,从而达到可以 scale up model 来提升图像生成质量的效果


Reference:

📖学习手册

【GitHub】


相关推荐
武文斌7739 分钟前
arm启动代码总结
arm开发·嵌入式硬件·学习
我怕是好1 小时前
学习stm32 蓝牙
stm32·嵌入式硬件·学习
索迪迈科技1 小时前
STM32F103C8T6开发板入门学习——点亮LED灯2
stm32·嵌入式硬件·学习
摇滚侠1 小时前
Vue3入门到实战,最新版vue3+TypeScript前端开发教程,笔记03
javascript·笔记·typescript
Learn Beyond Limits2 小时前
The learning process of Decision Tree Model|决策树模型学习过程
人工智能·深度学习·神经网络·学习·决策树·机器学习·ai
岑梓铭3 小时前
考研408《计算机组成原理》复习笔记,第六章(1)——总线概念
笔记·考研·408·计算机组成原理·计组
Suckerbin3 小时前
digitalworld.local: TORMENT
笔记·安全·web安全·网络安全
凯尔萨厮3 小时前
Java学习笔记三(封装)
java·笔记·学习
YoungUpUp4 小时前
【文件快速搜索神器Everything】实用工具强推——文件快速搜索神器Everything详细图文下载安装教程 办公学习必备软件
学习·everything·文件搜索·实用办公软件·everything 工具·文件快速搜索·搜索神器
RaLi和夕4 小时前
单片机学习笔记.C51存储器类型含义及用法
笔记·单片机·学习