探索Sora的技术原理分析以及影响、未来趋势

1、Sora:视频生成模型作为世界模拟器

Sora探索的是在视频数据上进行大规模生成模型的训练。具体来说,联合训练了文本条件扩散模型,用于处理持续时间、分辨率和宽高比各异的视频和图像。利用了一种变压器架构,该架构在视频和图像潜在编码的时空补丁上运行。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是建立通用物理世界模拟器的一个有前景的途径。

上面的图文是Open AI 官网 Sora的技术报告的首段内容,可以看出Sora的野心远远不是简单的视频生成,而是跟标题一样的意思,通过视频数据来创造一个世界模型或者世界模拟器,这才是Sora目标。

2、技术原理分析

2-1、将视觉数据转换为补丁

受到大型语言模型的启发,这些模型通过在互联网规模数据上进行训练获得了通用能力。语言模型的成功在一定程度上得益于优雅地统一了文本、代码、数学和各种自然语言等不同形式的标记。在这项工作中,我们考虑了生成视觉数据模型如何继承这些优势。与语言模型具有文本标记不同,Sora 使用视觉补丁。先前已经证明,补丁是视觉数据模型的有效表示。我们发现,对于训练生成各种类型的视频和图像模型,补丁是一种高度可扩展和有效的表示方法。

2-2、采用patches统一训练数据格式

最早在ViT中出现将图片分patch输入给transformer。Sora的有点不太一样,首先通过一个encoder(VAE结构)将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。

Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间

添加图片注释,不超过 140 字(可选)

将变压器用于视频生成规模化,Sora是一个扩散模型;给定输入的噪声补丁(以及文本提示等条件信息),它被训练为预测原始的"干净"补丁。重要的是,Sora是一个扩散变压器。变压器已经在各种领域展示了出色的规模化性能,包括语言建模、计算机视觉和图像生成。

2-3、Sora在视频生成方面的优势可以总结如下:

  1. 基于补丁的表示:Sora使用基于补丁的表示方法,使其能够处理具有不同分辨率、持续时间和宽高比的视频和图像。
  2. 扩散变压器:作为扩散模型的一种,Sora在处理输入噪声补丁时,通过训练预测原始"干净"补丁,这有助于提高生成质量。
  3. 可扩展性:Sora是基于变压器的模型,而变压器已经在多个领域展示了出色的规模化性能,包括语言建模、计算机视觉和图像生成。
  4. 生成控制:在推断时,可以通过合理排列随机初始化的补丁来控制生成视频的大小,这增强了对生成过程的控制能力。
  5. 对图像的适用性:Sora的设计也适用于处理图像数据,因为图像本质上只是单帧视频。

2-4、 使用re-captioning获得text-videos对

在训练阶段,将视频按1帧或者隔n帧用DALL·E3按照一定的规范形成对应的描述文本,然后输入模型训练。在推理阶段,首先将用户输入的prompt用GPT4按照一定的规范把它详细化,然后输入模型得到结果。

3、网络结构

3-1、DiT(Diffusion in Transformers)

添加图片注释,不超过 140 字(可选)

DiT(Diffusion in Transformers)结构是将transformer和DDPM(Diffusion Models)结合在一起的模型。简单来说,它使用transformer结构替换了稳定扩散中的U-Net结构,用于噪声去除。这种替换带来了以下优势:

  1. 随着数据规模或训练时间的增加,模型效果越好:这意味着随着模型的规模和训练时间的增加,模型的性能会进一步提升,这是一个非常有吸引力的特性。(也就是大力出奇迹,暴力文学)
  2. 模型越大、补丁越小,效果越好:这表明使用更大的模型和更小的补丁可以进一步提高模型的性能。

3-2、整体的结构 下图来自B站UP主ZOMI酱的画的一个Sora结构:

在Conditioning阶段,可能不是一帧对应一个文本,而是几帧甚至十几帧对应一段文本描述。在编码成时空潜在补丁时,可能使用了ViT的时空编码方式。输入给解码器(encoder)的内容应该是去噪之后的补丁序列,用补丁(patches)描述比使用Tokens更准确一些。

4、影响以及趋势

4-1、Sora可能带来的影响包括:

  1. 影视和短视频行业:Sora可能首先影响影视和短视频行业,为其提供更高效、更创新的内容生成工具。
  2. 生成时间的增长:未来的Sora版本可能会生成更长的序列,这类似于ChatGPT不断增大的输入标记长度,为内容创作提供更大的灵活性和多样性。
  3. 通向AGI的道路:Sora的发展可能是通向人工通用智能(AGI)的一部分,这是许多人所追求的目标。
  4. 世界模型的讨论:人们广泛讨论和关注Sora是否具备世界模型的特征,其能力包括3D一致性、长程一致性和物体永久性、与世界的互动以及模拟数字世界等。

总的来说,Sora可能对影视、视频生成和人工智能领域带来重大影响,推动这些领域的发展和创新。

相关推荐
杀生丸学AI2 个月前
【AIGC视频生成】视频扩散模型(综述+最新进展)
aigc·音视频·sora·视频扩散模型·sam2·一键生成视频
陪学4 个月前
Sora:视频生成模型
人工智能·产品运营·项目管理·产品经理·产品设计·sora
旋转的油纸伞5 个月前
视频生成【文章汇总】SVD, Sora, Latte, VideoCrafter12, DiT...
音视频·svd·视频生成·sora·dit
掘金酱8 个月前
🎁【获奖公示】技术专题24期 | Sora 技术探索
人工智能·sora
HelloGitHub8 个月前
OpenAI未至,Open-Sora再度升级!已支持生成16秒720p视频
开源·github·sora
Bubbliiiing8 个月前
AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频
aigc·文生视频·视频生成·sora·easyanimate
玄明Hanko8 个月前
Sora-离取代人类又近了一步?
人工智能·openai·sora
用户504860133578 个月前
Sora未正式发布,却已爆火,普通人如何抓住这一千载难逢的机遇?
openai·sora
管乐明8 个月前
Sora 目前唯一体验方式,原来藏在了官网里 | 附体验地址
chatgpt·openai·sora
PandaMiner8 个月前
Open Sora 发布!开源的高效复现类 Sora 视频生成方案
chatgpt·sora