Datawhale【Sora原理与技术实战】| 学习笔记3

目录

  • [一. 训练 Sora 模型](#一. 训练 Sora 模型)
  • [二. 数据预处理](#二. 数据预处理)
  • [三. 视频 VQVAE](#三. 视频 VQVAE)
  • [四. Diffusion Transformer](#四. Diffusion Transformer)

一. 训练 Sora 模型

Open-Sora 在下图中总结了 Sora 可能使用的训练流程:

链路:

二. 数据预处理

目前主流 LLM 框架缺乏针对 video 数据 统一便捷的管理和处理能力,且多模态数据处理标准方案缺失

复制代码
	pytorchvideo:主要支持加载和少量单 video 模态的tensor transform(翻转、扰动、采样等)
	SORA 官方仅模糊提及使用了 DALLE3 来生成 caption,细粒度的"caption --> spacetime patch"建模比较关键
	从 SORA 模型效果看,数据需要有变化的时长、分辨率和宽高比

Data-Juicer 扩展了对多模态数据的支持:

复制代码
	支持视频数据的高性能 IO 和处理
	支持并行化数据加载:lazy load with pyAV and ffmpeg;多模态数据路径签名并行化算子处理:支持单机多核;GPU 调用;Ray 多机分布式
	[WIP]  分布式调度优化;分布式存储优化
	基础算子(视频时空维度)

三. 视频 VQVAE

四. Diffusion Transformer

通过结合 diffusion model 和 transformer,从而达到可以 scale up model 来提升图像生成质量的效果


Reference:

📖学习手册

【GitHub】


相关推荐
摸鱼的老谭1 小时前
Java学习之旅第二季-13:方法重写
java·学习·方法重写
不会调制解调的猫1 小时前
笔记 | 内网服务器通过wifi穿透,设置流量走向
运维·服务器·笔记
程序员大雄学编程3 小时前
「机器学习笔记7」决策树学习:从理论到实践的全面解析(上)
笔记·决策树·机器学习
larry_dongy3 小时前
【学习记录】vscode+ros2+cpp调试
vscode·学习
递归不收敛4 小时前
吴恩达机器学习课程(PyTorch适配)学习笔记:1.5 决策树与集成学习
pytorch·学习·机器学习
菜鸟‍4 小时前
【论文学习】2025年图像处理顶会论文
图像处理·人工智能·学习
Logintern094 小时前
【学习篇】Redis 分布式锁
redis·分布式·学习
聪明的笨猪猪4 小时前
Java Spring “Bean” 面试清单(含超通俗生活案例与深度理解)
java·经验分享·笔记·面试
A9better4 小时前
嵌入式开发学习日志38——stm32之看门狗
stm32·嵌入式硬件·学习
bnsarocket4 小时前
Verilog和FPGA的自学笔记3——仿真文件Testbench的编写
笔记·fpga开发·verilog·自学