算法打工人对Sora模型的猜测与推理

如果要问最近AI大模型圈内最火的新闻是什么？

那无疑是OpenAI在2月15日发布的Sora大模型。如果说ChatGPT的大模型是根据文本信息进行对话，那么Sora则可以根据文本生成一分钟的高清视频，生成的视频画质、连续性、光影等都令人叹为观止，Sora无疑将视觉生成推到新的高度。

大家好，我是千与编程，作为一名爱研究技术的极客，同时也是一名算法岗的打工人，就让我从算法岗的角度给大家解读一下Sora大模型，相信我这里有你想知道的一切！

通过搜集代码以及资料，最后整篇文章的思维导图如下：

一、Sora模型的官网demo

Sora 仅仅靠几个视频demo，就让整个AI圈子从惊讶到恐惧，惊讶于Sora生成的视频已经到达工业应用级别，恐惧于现有的文生视频的模型与Sora的差距竟然如此之大。

官网发布的几个Demo相信大家已经看过很多次了，千寻挑选了几个有特点的。

（1）提示词Prompt（已翻译）:

一个华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物

生成效果：

（2）提示词Prompt （已翻译）：

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

生成效果：

可以看到Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。相当于可以对视频中的人进行旋转拍摄，这是之前的模型无法做到的。

二、Sora模型性能的突破

通过以上的官方发布的demo视频可以看出目前的Sora模型至少有以下突破：

（1）视频画质突破：视频非常高清，细节极其丰富，并且通过官网的分辨率选择问题，目前已经支持超清画质。

（2）视频帧率和连续性突破：视频帧率高、连续性好（无闪烁或明显的时序不一致）；

（3）生成时长突破：相比之前文本生成视频模型仅能生成几秒的时长，Sora可以生成长达1分钟的视频，这是之前文本生成视频模型不敢想象的；

（4）物理规则理解突破：视频中物体的运动、光影等似乎都非常符合自然世界的物理规则，整个视频看上去都非常自然和逼真。

单说这是很大突破，可能你会没有啥感觉，我们将现有的文本生成视频网站Pika，使用同样的提示词放入进行生成对比。

提示，前方高能！

好的，抱歉，我知道你们今晚睡不着了！因为这Pika网站，简直通地府啊。。。而且生成的视频只有4秒钟。

三、Sora模型建模原理（猜测）

为什么是猜测，原因很简单，Sora模型还没有发布！Sora模型还没有发布！Sora模型还没有发布！重要的事情说三遍！但是能公开的技术一定不是核心技术，以下我个人的推测更多一些

事实上文本生成视频并不是一个新的产业需求，很多模型也在做和解决，比如以上的Demo1的提示词使用已有的Gen-2 video模型进行生成：

可以看到生成的视频也还说得过去，但是相比于Sora模型，就有一些相形见绌了。

并且前亚马逊首席科学家李沐也表达了自己对Sora模型的观点。

我自己结合了李沐老师的语言以及资料，对sora的建模方法进行了猜测。

但是从披露的信息来看， OpenAI并未使用新的模型架构，类似GPT一样，这个Sora模型基于 Diffusion和Transformer 结构（先背下来，后续我会详解，可以关注我）。

视频信息编码：通过变分自编码器（VAE）将高维的原始视频映射（压缩）到较为低维的隐空间，为了后续transformer计算方便，将这个特征切成不重叠的视频切片，再将这些切片特征拉平成一个token序列，这个token序列其实就是原始视频的表征了，如下图所示：

VAE是变分自动编码器（Variational Autoencoder）的缩写。

在 VAE 中，有两个主要部分：

编码器（Encoder）：将输入数据（如图像）映射到潜在空间中的分布。这通常意味着编码器将输入数据编码成一个潜在空间中的均值向量和方差向量。
解码器（Decoder）：将潜在空间中的样本向量解码为原始数据的重构。解码器通过从潜在空间中采样来生成新的样本。

视频信息解码：使用transformer来做diffusion model的训练，使用transformer的好处在于可以输入任意长度的token序列，这样就不再限制输入视频的尺寸和时长，在diffusion transformer的训练中，给定噪声输入结合输入的提示词特征，模型被训练去预测原始视频的patches进行解码，示意图如下：

对于非专业人士，只需要理解为Sora的本质原理为，原始视频通过编码的方式转化为计算机可以接受的数据格式，在生成视频时候，选取适当的数据进行拼接，刚生成的视频上充满噪声，进行不断迭代优化来去除"噪声"，生成你的目标视频的过程。

这个过程类似于X光片的定影与显影。

四、 Sora模型的未公布细节

能公开给我们的，大概率不会是重要的技术，防止你进行复现，值得关注的细节包括以下的几个：

（1）模型：最重要的肯定是模型，模型的具体结构如何、包含的参数数量、输入提示词tokens数目限制？

（2）数据：使用了哪些数据集？数据集的规模大小，是不是只有视频训练数据，没有单独的文本数据？

（3）资源：类比于GPT-3训练成本，Sora模型训练视频数据，由文本数据变为视频数据，使用的显存只会更大，那么对我们国产化创业的可复制性如何？

五、Sora模型是否存在局限性

原本中提到：Sora 目前表现出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，例如玻璃破碎，这种如此细腻的我感觉Sora模型不一定能够实现，细节过多。

其他交互过程（例如吃食物）也不总是能正确预测。我们在登陆页面中列举了模型的其他常见故障模式，例如长时间样本中出现的不连贯性或对象的凭空出现。

总结一下：

（1）对世界的物理规则的理解还不完美；

比如重物从高楼上进行自由落体的路程，遵循1/2gt²的自由落体规律，如果训练的数据仅仅是视频流的数据，没有专门的文本公式对生成的视频指导，那么生成的视频就会存在一定的误差，不符合科学常理的地方。

（2）长视频生成时容易出现不连贯或者物体凭空出现的现象。

六、Sora会影响哪些行业？

最直观的肯定就是短视频内容创作了，因为Sora模型可以提供丰富的视频素材；

视频剪辑和编辑：Sora具备相关应用能力；
更逼真的数字人：用户可以得到自己的"理想型"；

但是千寻在这里可能需要给大家泼点冷水，也算是批判性的看问题，大家知道GPT-4的文章生成能力，基本上一句提示词就可以生成一篇小文章，但是现在各大自媒体文章平台，全部要求增加了"AI辅助生成"标识。

目前有专门的AI生成内容的检测工具，如果是由AI生成内容，不进行创作声明的话，被检测出来的话也算违规的。

我个人猜想，视频领域慢慢也会增加AI生成视频的检测，也是为了维护公平性。同时视频领域的话，敏感问题会更多。。。懂的都懂，所以后面Sora模型的使用问题一定会有一些很强的限制。

我是千与编程，一个只讲干货的码农，我们下期见！