sora技术原理 - sora技术原理技术,学习,经验文章

AI周红伟

2 年前

OpenAI Sora视频模型技术原理报告解读•不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面。•技术细节写得比较泛（防止别人模仿）大概就是用视觉块编码（visual patch）的方式，把不同格式的视频统一编码成了用transformer架构能够训练的embeding，然后引入类似diffusion的unet的方式做在降维和升维的过程中做加噪和去噪，然后把模型做得足够大，大到能够出现涌现能力。