Sora--首个大型视频生成模型

Sora--首个大型视频生成模型

胡锡进于2024年2月20日认为:台当局怂了

 **TU商兴** 认为:不是怂了就可以的,台当局又不是小孩子

新的改变

对比现在文生视频的一流团队RUNWAY 、PIKA、SVD的生成效果,简直是造成了跨时代的碾压震撼效果!Runway 和Pika目前生成的视频时长都较短只有几秒,需要通过不断的拼接。

而且画面稳定性不强,如果需要呈现好的效果,需要创作者本身有非常强的视频剪辑及相关基础。而SORA这次最逆天的是,通过非常简单的文字描述,就可以生成画面稳定,理解能力强的长视频!Sora本次展示的是技术思路不同所带来的完全碾压。从关注二维像素的变化,变成关注语义理解的变化,从视频画面的生成,变成故事逻辑的生成。

之前无论是Runway、Pika、SVD等等文生图、文生视频都是在二维平面上对图像进行调整和组合,但是Sora的视频,显示它能像人一样理解一些基础的物理规律,这是 OpenAl利用它的大语言模型优势进行的超强语义理解,是真正层面的世界模型。只有实现对现实世界的理解和对真实世界的模拟,这样产生的图像和视频才是更加真实的效果。这次Sora带来的震撼或许不仅仅是影视行业,而是未来可能扩展到其他行业,视频展示的是对真实世界物理规律的再现!

英伟达的高级科学家Jim Fan认为 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 引擎。可以把 Sora 看作是一种可学习的模拟器,或者说是一个能模拟现实世界的"世界模型"。这种方法可以让 Sora 更好地理解和模拟现实世界的物理现象。

世界模拟器

OpenAI目前开发的Sora视频生成模型技术,将完全超越现有的视频生生成模型,如Runway和Pika。这项技术的核心是一个创新的"世界模拟器",它是一个基于文本条件的扩散模型,通过从大量的视频中学习,这些视频涵盖了不同的时长、宽高比和分辨率。这个模拟器的训练过程涉及吸收和处理海量的视觉数据,使其能够根据文本描述生成相应的视频内容。例如,当输入"太空人的冒险故事,他戴着一顶红色羊毛编织的摩托车头盔"这样的描述时,模型能够理解含义,并且生成与之相符的视频画面。

该模型还具备生成视频的灵活性和多样性,支持不同的时长和分辨率设置,其最大输出规格可达1920*1080的分辨率和30帧/秒的帧率。

视觉数据转换

简单来说,OpenAI在视觉数据处理领域,将视觉数据转换为"patch"这一个个单元体,它可以将图像和视频帧分割成"补丁"状的小块。这些"补丁"作为视觉模型的基本输入单元,使得模型能够学习和理解如何表示以及重建视觉场景。在此基础上,模型能够在特定条件,如文本描述的引导下,生成新的图像或视频内容。

这种处理方式与大型语言模型中的"token"概念相似,token是文本数据的基本处理单元。在语言模型中,文本被分解为较小的片段以实现语言的理解和生成。同样地,视觉模型的训练过程涉及将不同类型的视频和图片转换成patch,作为模型输入的基本单位。这个过程可以理解成首先将视频压缩到一个较低维的潜在空间,然后将视频转换为patch,并进一步分解为"spacetime patches"(时空补丁)。

视频压缩

研究者开发出一种专门的视频压缩网络。该网络的核心是一个经过训练的神经网络,其设计宗旨在于降低视觉数据的多维度复杂性。而所谓的"降低维度",指的是将数据从高维空间------例如原始视频数据,包含了海量的像素信息------转换到低维空间。这一过程的目的是对数据进行简化,提取关键特征,同时减少后续处理所需的计算资源。

这个神经网络接受原始视频作为输入,并输出一个在时间和空间上都经过压缩的潜在表示(latent representation)。时间上的压缩意味着减少了表示视频动态变化所需的信息量;空间上的压缩则意味着减少了表示视频中每一帧图像所需的信息量。在这个压缩的潜在空间中,Sora模型首先进行训练,学习如何理解和控制这种形式的数据。经过训练,Sora能够在这个潜在空间内生成新的视频数据。

为了将Sora生成的潜在表示转换回原始的像素空间,研究者还训练了一个解码器模型。

解码器的作用是将压缩的视频数据还原成可以直接观看的视频格式。

时空补丁(Spacetime Laten Patches)

在视频数据压缩完成后,接下来的关键步骤是提取一系列的"Spacetime Latent Patches",这些Patches包含了视频在特定时间和空间范围内的信息。这些Patches在transformer模型中扮演的角色类似于自然语言处理中的单词token。这种方法不仅适用于视频数据,也适用于图形数据,使得不同分辨率、时间和宽高比的视频和图像能够作为Sora模型的训练集。

在模型推理,即生成新的视频内容时,可以通过在适当大小的网格中排列随机初始化的Patches来控制生成视频的大小。这个过程类似于在自然语言处理中,模型根据给定的token生成新的文本内容。通过这种方式,Sora模型能够根据需要生成不同大小和格式的视频,为视频生成和编辑提供了更大的灵活性和多样性。

视频生成扩展变压器

Sora模型的根基是建立在Transformer架构之上的扩散模型。

该模型通过接收输入的噪声Patches和文本提示等调节信息,能够有效地预测出"干净"的Patch。

这种架构在大型语言模型、计算机视觉和图像生成等领域都有着广泛的应用。在训练过程中,使用固定的种子和输入,随着计算量的增加,生成样本的质量会显著提高。这种训练方式使得Sora模型能够逐步学习并优化其生成能力,从而在处理视频和图像数据时,能够输出更加精细和逼真的结果。

##数据和训练

Sora通过分析和理解大量包含物理互动的视频,学习到了物理规律的表现形式。例如,它可以观察到苹果从树上落下来的视频,学习到重力的效应;看到球在地面上滚动的视频,理解到惯性和摩擦力如何影响物体的运动。通过这些观察,Sora能够生成新的视频,其中的物体和人物遵循现实世界的物理规律。

算法和模型架构

Sora使用的算法和模型架构(如扩散模型和变换器)使其能够在视频生成过程中考虑时间和空间的连续性。

这意味着它不仅能够理解单个画面中物体的位置和状态,还能够理解这些物体随时间如何变化和移动。

这种时空连续性的理解是让生成的视频看起来符合物理规律的关键

结语

Sora通过分析大量的视频数据、学习物理规律的表现,并利用先进的算法理解和模拟时空连续性,从而能够生成看起来符合物理规律的视频。

这一过程涉及到复杂的计算和大量的数据处理,最终使得Sora生成的视频在视觉上既真实又符合逻辑。

AGI的未来或许真的不远了!

相关推荐
B站计算机毕业设计超人1 小时前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
学术头条1 小时前
清华、智谱团队:探索 RLHF 的 scaling laws
人工智能·深度学习·算法·机器学习·语言模型·计算语言学
18号房客1 小时前
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·sklearn
feifeikon1 小时前
机器学习DAY3 : 线性回归与最小二乘法与sklearn实现 (线性回归完)
人工智能·机器学习·线性回归
游客5201 小时前
opencv中的常用的100个API
图像处理·人工智能·python·opencv·计算机视觉
古希腊掌管学习的神1 小时前
[机器学习]sklearn入门指南(2)
人工智能·机器学习·sklearn
凡人的AI工具箱1 小时前
每天40分玩转Django:Django国际化
数据库·人工智能·后端·python·django·sqlite
咸鱼桨2 小时前
《庐山派从入门到...》PWM板载蜂鸣器
人工智能·windows·python·k230·庐山派
强哥之神2 小时前
Nexa AI发布OmniAudio-2.6B:一款快速的音频语言模型,专为边缘部署设计
人工智能·深度学习·机器学习·语言模型·自然语言处理·音视频·openai
yusaisai大鱼2 小时前
tensorflow_probability与tensorflow版本依赖关系
人工智能·python·tensorflow