1. 写在前面

就在2024年的春节期间，OpenAI发布了Sora，这一次的发布得到了全世界的关注。Sora简单的理解就是通过文字或者语言直接生成的视频大模型（text-to-video文生视频模型），官方并没有单纯的称之为视频模型，而是称为"世界模拟器"

一起围观震撼的视觉冲击：openai-sora

2. 什么是Sora？

Sora是OpenAI发布的一个视频生成模型，可基于文本输入生成视频！产生长达一分钟的连贯视频，而且可以做到高清与多视角，是不是感觉人人都可以做导演了～

Sora跟之前的Pika和Runway并不属于同一个东西！Sora是有理解力的，可以感知真实的物理世界与自然语言！Pika和Runway目前只能生成4s视频，但是Sora可生成60s超长视频的同时且动作连续、有一定的艺术性、没有看似生硬的感觉

在这其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色～

同样的提示词在下图中，无论是视频的画质、内容细节以及视频的长度。Sora都表现的非常优秀！

我们再看下面的一组示列，也是同样的提示词，上面是由Sora生成，而下面则是RunwayG2生成，很明显的可以看到无论是视频的清晰度，还是视频的流畅度，以及视频里面海浪🌊的细节，Sora都全面的碾压Runway

Sora不仅生成60s超长视频，在视频内可以在保持主角色不变的高度一致性的同时，还生成多个不同角度的分镜！

Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上持续添加新的笔触，或者一个人吃汉堡时留下咬痕。这个就厉害了，基于虚幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的

3. Sora的技术原理

OpenAI在其技术报告中虽未提及模型的训练与细节，但也重点展示了：

将所有类型的视觉数据转化为统一表示，从而能够大规模训练生成模型的方法
Sora的能力以及局限性定性评估

视觉数据转为 Patches

大型语言模型通过在互联网规模的数据上进行训练，获得了出色的通用能力中，OpenAI 从这一点汲取了灵感。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 ------ 代码、数学和各种自然语言统一了起来。在这项工作中，OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token，而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示

在更高层面上，OpenAI首先将视频压缩到较低维的潜在空间，然后将表示分解为时空patches，从而将视频转换为patches

视频压缩网络 OpenAI训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入，并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练，而后生成视频。OpenAI还训练了相应的解码器模型，将生成的潜在表示映射回像素空间

时空潜在 Patches

给定一个压缩的输入视频，OpenAI 提取一系列时空 patches，充当 Transformer 的 tokens。该方案也适用于图像，因为图像可视为单帧视频。OpenAI 基于 patches 的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，OpenAI 可以通过在适当大小的网格中排列随机初始化的 patches 来控制生成视频的大小

用于视频生成的缩放 Transformer

Sora的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力

Sora实际上是一种扩散型变换器模型（Diffusion Transformer）

它能够通过从一开始看似静态噪声的视频出发，通过许多步骤逐步消除噪声，最终生成视频

Sora不仅可以一次性生成完整的视频，还能扩展已生成的视频，使其更加长久。通过让模型能够预见多帧内容，成功克服了确保视频主体即便暂时消失也能保持一致性的难题

Sora 借鉴了 GPT 模型的成功，采用了Transformer 架构，实现了前所未有的扩展性能

Sora把视频和图像分解为小的数据单元------补丁，每个补丁相当于 GPT 中的一个词语。通过统一数据的表达方式，我们得以在更广泛的视觉数据上训练扩散Transformer，这些数据覆盖了不同的时长、分辨率和画面比例

Sora在DALL·E 和GPT的研究基础上进一步发展。利用DALL·E 3的重新标注技术，为视觉训练数据生成高度描述性的说明文字。结果是，模型能够更加忠实地根据用户的文本指示生成视频

除了能够仅凭文本指令生成视频外，Sora还能够将现有的静态图像转化为视频，精确地动画化图像内容，并注意到细小的细节。模型也能够扩展现有视频或补全缺失帧

Sora 为理解和模拟现实世界的模型奠定了基础，这是实现人工通用智能（AGI）的重要里程碑

感兴趣的小伙伴可阅读官方文档：Video generation models as world simulators

然而虽然Sora的表现令人印象深刻，但是它也并非是非常完美的！目前在处理复杂的场景中难以准确模拟复杂场景的物理原理，还可能会混淆提示的空间细节，可能难以精确的描述随着时间推移发生的事件

在官方网站中我们也能够看到公布出来的一些不是很完美的案例视频：

物体交互时的一些交互错误

还有像下面这种多个场景中相互之间的一个交互，会有一些奇怪的现象。比如几个小动物融合在了一起

这些局限性也提醒着我们，尽管AI技术取得了巨大的进步，但在处理像提示词工程这样的问题上，仍然有很长的路需要去走！同时，在视频制作行业未来肯定也会带来很多新的挑战与机遇

最后，相信大家这两年都能感受到AIGC的能力，我们从质疑到接受再到使用，最后感到震惊！

OpenAI最新模型Sora到底有多强？眼见为实的真实世界即将成为过去！

1. 写在前面

2. 什么是Sora？

3. Sora的技术原理