开创视频新纪元：揭秘OpenAI Sora的魔力

theme: serene-rose

假如您也和我一样，在准备春招。欢迎加我微信shunwuyu，这里有几十位一心去大厂的友友可以相互鼓励，分享信息，模拟面试，共读源码，齐刷算法，手撕面经。来吧，友友们！

前言

Sora是16号凌晨发布的，某乎上贩卖教程的文章16号中午出的，这Sora到底有多香？今天我们来聊聊OpenAI的视频模型：Sora。

正文

自打GPT 火了之后人们就对GPT能干什么充满好奇，今天扔段代码，明天甩两个数学题过去，后天又让人家出个旅游计划，在这些方面GPT无疑将大部分任务都做到了让人较为满意的地步，除了视频方面，这款视频AI大模型广受关注主要原因是过去AI生成的视频但要么画面瑕疵多，要么就是时长短得厉害，在Sora你根本找不到一款这样又长又好的产品，我个人认为Sora能说是吊打其他模型主要是因为OpenAI沿用了之前的开发思路，有足够的成功经验，当谈到视频领域的模型思路时，通常有三种主要的方法：循环网络（RNN）、生成对抗网络（GAN）和扩散模型（Diffusion models）。

循环网络（RNN）

循环神经网络是一类专门用来处理序列数据的神经网络结构。在视频领域，RNN可以被用来捕捉视频帧之间的时间序列信息，从而实现视频内容的分析、生成或者识别。通过循环结构，RNN能够在处理视频数据时考虑到帧与帧之间的时间关系，具有一定的记忆性，因此在一些视频相关的任务中表现得比较出色。

生成对抗网络（GAN）

生成对抗网络是一种包括生成器和判别器两部分的模型框架，在训练过程中通过对抗的方式使得生成器不断提升生成数据的质量，判别器不断提升对真实数据和生成数据的鉴别能力。在视频领域，GAN可以被用来生成逼真的视频内容，或者进行视频内容的修复、增强等任务。通过对抗训练，GAN能够生成高质量的视频内容，具有很大的潜力。

扩散模型（Diffusion models）

扩散模型是一种基于随机过程的生成模型，通过迭代地将噪声信号进行多次扩散来生成数据，并且在训练时采用类似对比散度的损失函数来指导模型学习。在视频领域，扩散模型可以被用来生成具有高质量和多样性的视频内容，同时能够实现对视频内容的精细控制。扩散模型在处理视频数据时表现出色，已经成为视频领域的一个较为成熟和有效的模型思路。

过去一段时间GAN模型很火，但是这个模型就像是脱缰的野马，属于是抽象派艺术家都跟不上思路的那种。所以GAN生成的视频大多数是些"一只小羊跑着跑着变成了四个脑袋十条腿"的鬼畜类视频。而扩散模型相对来说更加可控，生成多样性和训练稳定性都更好。在视频领域已经占据统治地位，因此OpenAI选择扩散模型已经让Sora跟上时代潮流了。但是仅此一点并不足以让OpenAI在一众使用扩散模型的公司中脱颖而出，自家的GPT能遥遥领先靠的是Transformer架构，可用它来处理视频信号时计算成本非常高，高到钱多得当柴烧的OpenAI也扛不住。所以OpenAI用了一个更便宜的技巧 "latent"，"latent"可以说是一种"压缩"，相较于Transformer面面俱到滴水不漏的详细讲解，latent像新闻标题一样能用一句话告诉你大概谁什么时候在哪里干了啥。所以OpenAI特地开发了一个视频压缩网络，把视频先降到latent空间，然后再拿这些压缩过的数据处理，这样就能减小Transformer架构带来的计算量压力。解决了计算量问题还有一个大难题就是这些视频数据如何"Token 化"，在GPT里面，Token可以优雅的把代码、数学以及各种不同的自然语言进行统一，从而方便规模巨大的训练，最后大力出奇迹。为了把视频图块进行统一，OpenAI还特地搞了个Patch也能把视频进行大规模训练了。这么一来，Sora就成了OpenAI把文字这领域干成过的事，在视频领域再干了一遍，最后效果正如大家所见也的确不错。OpenAI训练时还找了效果更好的方法，把行业内主流用的把视频截取成预设标准尺寸时长然后再训练，改成了原始尺寸时长训练。这样一来，Sora生成的视频时长尺寸能够自定义，取景构图也能变得更好。OpenAI还有一些其他厂商没有的小优势，比如训练Sora时要用大量含文本说明的视频素材，其他人还在苦恼怎么搞素材的时候，OpenAI直接用自家的DALL·E 3批量给视频素材加上高质量文本描述。另外用户提示词输入后，他们会用自家的GPT进行补充扩写，然后把这个加工过的提示词再给Sora，这也是为啥Sora比其他视频AI更精准更懂人的意思。

总结

从整体来看，你会发现Sora模型的成功并非偶然，它能有如此惊艳的效果，全都得益于OpenAI过去的工作。或许我们可以说，OpenAI自己先成为了一个巨人，然后再站在自己的肩膀上成为了一个新的巨人。相对应的是，无论国内还是国外的其他竞争对手，或许因为文生文，文生图上的技术差，在未来被甩得更远。弯道超车，"差距只有几个月"，或许是不存在的，只是自我安慰。