Datawhale【Sora原理与技术实战】| 学习笔记3

目录

  • [一. 训练 Sora 模型](#一. 训练 Sora 模型)
  • [二. 数据预处理](#二. 数据预处理)
  • [三. 视频 VQVAE](#三. 视频 VQVAE)
  • [四. Diffusion Transformer](#四. Diffusion Transformer)

一. 训练 Sora 模型

Open-Sora 在下图中总结了 Sora 可能使用的训练流程:

链路:

二. 数据预处理

目前主流 LLM 框架缺乏针对 video 数据 统一便捷的管理和处理能力,且多模态数据处理标准方案缺失

复制代码
	pytorchvideo:主要支持加载和少量单 video 模态的tensor transform(翻转、扰动、采样等)
	SORA 官方仅模糊提及使用了 DALLE3 来生成 caption,细粒度的"caption --> spacetime patch"建模比较关键
	从 SORA 模型效果看,数据需要有变化的时长、分辨率和宽高比

Data-Juicer 扩展了对多模态数据的支持:

复制代码
	支持视频数据的高性能 IO 和处理
	支持并行化数据加载:lazy load with pyAV and ffmpeg;多模态数据路径签名并行化算子处理:支持单机多核;GPU 调用;Ray 多机分布式
	[WIP]  分布式调度优化;分布式存储优化
	基础算子(视频时空维度)

三. 视频 VQVAE

四. Diffusion Transformer

通过结合 diffusion model 和 transformer,从而达到可以 scale up model 来提升图像生成质量的效果


Reference:

📖学习手册

【GitHub】


相关推荐
苜柠22 分钟前
Wpf学习片段
学习
欢乐熊嵌入式编程1 小时前
智能手表固件升级 OTA 策略文档初稿
嵌入式硬件·学习·智能手表
起床学FPGA1 小时前
异步FIFO的学习
学习·fpga开发
依年南台1 小时前
搭建大数据学习的平台
大数据·学习
孤寂大仙v2 小时前
【Linux笔记】——进程信号的产生
linux·服务器·笔记
小虎卫远程打卡app2 小时前
视频编解码学习10之成像技术原理
学习·计算机视觉·视频编解码
愚戏师2 小时前
Linux复习笔记(三) 网络服务配置(web)
linux·运维·笔记
X Y O3 小时前
神经网络初步学习——感知机
人工智能·神经网络·学习·感知机
小王努力学编程3 小时前
高并发内存池(三):TLS无锁访问以及Central Cache结构设计
jvm·数据结构·c++·学习
hnlucky3 小时前
通俗易懂版知识点:Keepalived + LVS + Web + NFS 高可用集群到底是干什么的?
linux·前端·学习·github·web·可用性测试·lvs