引言
大家好,我是老王,在数字创新的浪潮中,视频内容的生成技术已成为研究和商业领域的热点。Sora项目不仅仅是一个里程碑,它开辟了使用文本条件扩散模型联合训练可变时长视频和图像的新领域。今天根据Sora公开的技术报告,和大家一起聊聊Sora的核心技术、潜在应用和挑战以及个人的一些想法。
1. Sora概述
1.1.Sora概述
Sora是一个在可变时长的视频和图像上联合训练文本条件扩散模型。这项技术的目标是模拟物理世界,将视频生成模型用作世界模拟器,创造出前所未有的逼真视频内容。通过深度学习和AI的结合,Sora展示了如何将复杂的现实世界场景转化为高质量的视频输出,这不仅推动了技术的边界,也为多个行业带来了新的可能性。
1.2.Sora目前的效果
能够根据文本语义,能够生成一分钟的高保真视频,并可以通过语料进行视频编辑,图片生成等能力
1.3.Sora意义
Sora的研究结果表明,缩放视频生成模型是构建物理世界通用模拟器的有希望的途径。
2.现有视频数据的生成建模的方法分析
视频生成建模是一个复杂的领域,过去几年中,研究者们采用了不同的方法来解决视频内容生成的挑战。我们先了解下当前的视频数据的生成建模方法并进行简单的分析,在和Sora对比有什么不通,Sora进行了哪些创新。
2.1递归神经网络(RNN)和长短期记忆网络(LSTM)
RNN和LSTM被设计用于处理序列数据,如时间序列数据或自然语言文本,它们能够在处理视频序列时捕获时间上的动态变化。
Srivastava等人的工作《使用RNN的视频表示的无监督学习》是一个典型的例子,他们通过RNN学习视频序列中的时间动态,并能够预测未来的几帧画面。这种方法在视频游戏和简单动画的生成中表现出了潜力。
局限性:
虽然RNN和LSTM在捕获视频数据的时间依赖性方面表现出色,但它们在处理长序列时面临梯度消失或爆炸的问题,限制了模型对复杂场景的理解和生成能力。
2.2 生成对抗网络(GAN)
GAN由一个生成器和一个判别器组成,通过二者的对抗训练,能够生成逼真的图像和视频。
Vondrick等人在《Generating Videos with Scene Dynamics》中,使用GAN生成具有动态场景的视频。他们的方法可以生成简短但逼真的视频片段,例如街道上行人的移动。
局限性:
尽管GAN能够生成高质量的视频片段,但训练GAN极具挑战性,特别是在生成长时间的视频内容时,容易出现模式崩溃问题。
2.3扩散模型
扩散模型通过逐步从随机噪声中生成数据的过程,模拟了自然界扩散过程的反向,最近在高质量图像生成方面取得了显著进展。
Ho等人提出的Imagen视频利用扩散模型生成高清视频,这标志着扩散模型在视频生成领域的一个重要突破。他们的方法可以生成短时高清视频,如自然景观的变化。
局限性:虽然扩散模型在生成静态图像方面取得了成功,但将其应用于视频生成时,需要大量的计算资源,并且对长时间视频的生成仍存在挑战。
3.Sora的视频处理方法
3.1.全新的数据处理方式
Sora的开发团队从大型语言模型(LLM)中获得灵感,这些模型通过对互联网规模数据的训练获得了通用能力。大语言模型的成功在一定程度上得益于令牌(token)的使用,这些令牌优雅地统一了文本代码、数学和各种自然语言的各种形式。Sora团队借鉴了LLM的成功,提出了"视觉补丁"(visual patches)的概念,将其作为视觉数据的有效表示方法。这种方法允许Sora处理和理解各种类型的视频和图像数据,使其成为一种高度可扩展且有效的表示方式。
在处理时,视频首先通过一个编码网络被压缩到一个低维的潜在空间,然后将压缩后的表示分解成时空补丁。这样的处理方式使得数据表示更为紧凑,为后续的模型训练和视频生成提供了便利。
3.2.视频压缩网络:
Sora采用了视频压缩网络(Video compression network)来减少视觉数据的维度,将原始视频压缩成一个低维的潜在空间。这个过程包括两个主要步骤:
- 视频到潜在空间的转换:通过训练一个编码网络,将原始视频转换为时空隐式表示(spacetime latent representations)。这个表示压缩了视频数据,同时保留了视频的关键特征。
- 基于潜在表示的视频生成:Sora在这个压缩的潜在空间中进行训练,并随后基于此生成视频。为了将生成的潜在表示转换回像素空间,还需要训练一个相应的解码器模型。
3.3.时空隐式patches
在视频压缩的基础上,Sora进一步将压缩后的数据分解为时空补丁。这些补丁不仅包含了空间上的信息(即图像的一部分),也包含了时间上的信息(即随时间变化的信息)。通过这种方式,Sora能够同时捕捉到视频中的空间细节和时间动态。这种分解方法使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。通过将视频数据切割成小块(patches),Sora可以更灵活地处理和生成视觉内容。时空补丁不仅适用于视频,也适用于图像,因为图像可以视为单帧的视频。
这些技术的应用使Sora能够生成高质量的视频和图像内容,支持多种应用场景,如将静态图片转换为动态视频、生成不同尺寸和纵横比的视觉内容等。通过视频压缩网络和时空补丁的结合,Sora在视频生成领域实现了显著的技术进步,提供了一种新的方式来理解和生成复杂的视觉数据。
3.4.缩放变压器与视频生成技术
缩放变压器的视频生成是Sora技术框架中的一个重要技术,它通过扩散模型和条件反射信息提示,训练成类似文本预测的模型,从而实现了高效的视频生成。扩散模型是一种高效的生成模型,它能够生成高质量的视频,并且能够有效地缩放到不同的尺寸和格式,满足用户的不同需求。通过这种方法,Sora能够生成与文本描述高度相关的视频,从而提高了用户体验和生成效果。
从左到右:采样越来越精细,计算越来越大,效果越来越好
3.5. 全新的视频尺寸处理方式
传统的视频处理方法会将视频裁尺寸和市场裁剪到标准尺寸。与传统的方法不同,Sora直接在原始大小的数据上进行训练,避免了视频裁剪或缩放带来的信息损失,从而保留了视频内容的丰富细节和质量,提高了数据利用率和生成效果。并且方便灵活采样,改善视频构图和画面布局,这种方法不仅提高了视频内容的质量,还为创作者提供了更多的创造自由度。
1.灵活采样,生成不同尺寸视频的展示
2.传统处理方法和Sora原始视频上处理方法生成视频对比
3.6.如何提升Sora对文本的理解能力?
要想实现通过文本生成视频,那么就需要提高Sora对文本的理解能力,一般通过以下几种方法:
3.6.1. 数据增强
通过对输入的文本提示进行数据增强,可以扩展模型对不同类型提示的理解能力。这可以通过引入同义词、反义词、近义词、以及对提示进行随机变换等方式来实现。数据增强能够让模型在训练过程中接触到更多样化的输入,从而提高其泛化能力和对不同提示的理解能力。
3.6.2.借助GPT
和DALLE3 类似,使用GPT来把用户输入的短prompt, 扩展到更详细的prompt,这使得Sora能够准确地按照用户提示生成高质量的视频
训练文本到视频生成系统需要大量带有相应文本标题的视频。Sora应用了DALL·E 330到视频。我们首先训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。研究发现,对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。
与DALL·相似E 3,Sora还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。
4.Sora能力介绍
Sora技术报告介绍,除了text-to-video的能力,本身还支持图片和视频作为输入,图片输出,以及拟态能力。具体演示大家可以到官网观看,地址为:Video generation models as world simulators (openai.com)
4.2.把图片和视频作为输入
Sora技术框架不仅支持文本输入,还支持图片和视频输入,这为用户提供了更多的选择和灵活性,使得生成的视频内容更加丰富多样。Sora具有强大的多模态输入处理能力,可以同时处理文本、图片和视频输入,从而生成更加丰富多样的视频内容。通过支持图片和视频输入,Sora技术框架可以应用于更多的视频生成应用,如使静态图片动起来、扩展视频、生成循环视频等。
1. 让图片动起来
2.扩展视频
Sora 还能够向前或向后扩展视频
3.编辑视频
扩散模型已经实现了多种从文本提示中编辑图像和视频的方法。
4.视频无缝衔接
我们还可以使用 Sora 在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡
4.3.图片输出
除了视频生成,Sora技术框架还具有图像生成的能力,通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。
4.4.拟态能力
用大量数据训练,使sora可以模拟物理 世界中某些人、动物和环境 无需任何显示的引导
1.3D 一致性
Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动
2. 远距离相关性和物体持久性
视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持它们的外观。
3.模拟人的行为和动作
Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
4.模拟人数字世界
Sora还能够模拟人工过程,例如视频游戏。
五.Sora当前存在的问题
当然,该模型当前也不是无所不能的,它还存在以下的问题
5.1.难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例
比如篮球碰撞没有形变,饼干吃了之后没有咬痕等。
提示:篮球穿过篮筐然后爆炸。提示:篮球穿过篮筐然后爆炸。
问题:不准确的物理建模和不自然的物体"变形"的例子。
5.2.可能混淆提示的空间细节
该模型对空间细节可能进行混淆,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
提示:打印一个人跑步的场景,35 毫米电影胶片。
问题:有时会产生身体上难以置信的动作。
提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。更多的提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。
问题:动物或人可能会自发出现,尤其是在包含许多实体的场景中