OpenAI 推出的文生视频 Sora，目前 AIGC 视频的天花板，会让多少公司望而生畏？

今天 2 月 16 日，大年初七，一觉醒来，看到到处都在讨论 OpenAI 的文生视频大模型 Sora，于是我去搜了一把，今天凌晨 OpenAI 发布了文生视频大模型 Sora ，官网：openai.com/sora

想到之前 OpenAI 除了 ChatGPT 强大之外，在 AI 绘画方面基本没有多少竞争力，后来出的 DALL-E3 才在 AI 绘画方面有了很大改善，但是相比于 Midjourney 和 stable diffusion 来说，还是稍微弱了一些。

先前 OpenAI 在文生视频方面，基本没有什么声音，风头基本都被 runway 和 pika 抢走了。

王炸级的文生视频工具 Sora

如今 OpenAI 也加入了 AI 视频的竞争中来，一出来直接就放出王炸，我看了一下 Sora 生成出来的视频，目前在文生视频领域，真的就是天花板级别的 AIGC，无论是视频画面的丝滑程度，对提示词的理解程度，分镜的应用和切换，还是生成的视频时长，都是碾压其他同类产品。

最关键的是：Sora 生成的视频最长时间是 60s，视频镜头一致性，理解物理世界，超逼真不变形。

先看一组 Sora 生成的视频：

cdn.openai.com/sora/videos...

提示词：电影预告片讲述了 30 岁太空人戴着红色羊毛针织摩托车头盔的冒险经历，蓝天、盐漠，电影风格，35 毫米胶片拍摄，色彩鲜艳。

cdn.openai.com/sora/videos...

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

上述这 2 个 Sora 生成的视频，如果不提前告诉你是 AI 生成的，你一眼能分辨出这是 AI 生成的吗？是不是比 runway 和 pika 生成的要强悍很多？

尤其是用过 runway 的同学们都知道，免费的时长生成视频都是 4S，并且生成幅度大一点或者图片复杂点，就变形了，很难控制住。

拿上面这个太空人的视频来说，这个视频并不是一镜到底的，视频在不停切换特写镜头，这是其他工具所不具备的。所以我推测，生成 60s 的视频，应该是视频拓展和拼接出来的，不是一次性生成的 60s。

Sora 生成的视频基本上解决了几个 AI 视频技术难点：

真实物理世界逼真模拟，角色的一致性，长镜头的稳定性，单视频多镜头

Sora 的优势

Sora 可以理解物理世界中的存在方式

官方给出的：Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

我们再来看 2 个视频：

cdn.openai.com/sora/videos...

提示词：穿过东京郊区的火车车窗上的倒影。

这个视频最关键的一点就是在经过桥的时候，玻璃反光透出来了对面的女孩头像，这个实在是太逼真，对细节的把控真的是杠杠的。

cdn.openai.com/sora/videos...

提示词：一只猫叫醒熟睡的主人，要求吃早餐。主人试图忽视这只猫，但猫尝试了新的策略，最后主人从枕头下拿出秘密藏匿的零食，让猫再呆一会儿。

再来看看这个小猫咪的视频，以及人物脸部表情的变化，是不是控制的非常完美？

其他的 AI 视频工具在生成的运动方式上非常的生硬，并且运动幅度无法很大，一使劲就变形，导致很多现在的 AI 片子都有点像人物变形计，现在和 Sora 一比较，它们是不是有点像小孩子的玩具呢？

Sora 在视频上的运动已经非常接近真实的运动了，这就是为什么官方说，Sora 可以理解物理世界中的存在方式了。

Sora 可以在单个生成的视频中创建多个镜头

我们来看这个东京接头的视频：

cdn.openai.com/sora/videos...

提示词：美丽、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。

Sora 的运动幅度和逼真程度都远远远超其他 AI 视频工具的运镜功能，清晰度也大大提升了。这个东京街头的视频中，创建了多个镜头，逼真的让人无法分辨。

Sora 可以准确地保留角色一致性和视觉风格

cdn.openai.com/sora/videos...

提示词：一窝金毛幼犬在雪地里玩耍。他们的头从雪中探出来，被雪覆盖着。

cdn.openai.com/sora/videos...

提示词：赛博朋克背景下机器人的生活故事。

AI 视频想保持一致性风格，一般都是先用 AI 绘画的种子属性画出一致性的图，然后再用图生视频，再用剪辑工具，今天之前，文生视频的画面一致性并不太理想。但是 Sora 的效果着实令人惊艳。

无论是上图的一窝小金毛，还是下面这个赛博朋克机器人，都保持了一致性和视觉风格，看上去很自然。

尤其是下面这个赛博朋克机器人，机器人的 3 个镜头都是一致的，惊艳到我了。

Sora 的不足之处

说了 Sora 的这么多优势，我们再开看看 Sora 的不足。

我们来看看官方是怎么说的：

当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。该模型还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

我们来看一组视频：

cdn.openai.com/sora/videos...

提示词：打印一个人跑步的场景，35 毫米电影胶片。

弱点：Sora 有时会产生身体上难以置信的动作。

这个视频中，Sora 把人和跑步机的方向就搞反了。

再来看看下面这个视频

cdn.openai.com/sora/videos...

提示词：五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐，周围都是草。幼崽们又跑又跳，互相追逐、互相咬咬，玩耍着。提示：五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐，周围都是草。幼崽们又跑又跳，互相追逐、互相咬咬，玩耍着。

弱点：动物或人可能会自发出现，尤其是在包含许多实体的场景中。

这个视频是不是像无限影分身？

cdn.openai.com/sora/videos...

提示词：篮球穿过篮筐然后爆炸。提示：篮球穿过篮筐然后爆炸。

弱点：不准确的物理建模和不自然的物体"变形"的例子。

cdn.openai.com/sora/videos...

提示词：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。提示：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。

弱点：在这个例子中，Sora 未能将椅子建模为刚性物体，导致物理交互不准确。

cdn.openai.com/sora/videos...

提示词：一位白发梳得整整齐齐的老奶奶站在木质餐桌上的彩色生日蛋糕后面，蛋糕上插着无数蜡烛，脸上的表情是纯粹的喜悦和幸福，眼中闪烁着幸福的光芒。她倾身向前，轻轻地吹灭蜡烛，蛋糕上有粉红色的糖霜和糖珠，蜡烛不再闪烁，祖母穿着一件饰有花卉图案的浅蓝色衬衫，几个幸福的朋友和家人坐在桌边。看到庆祝，失去焦点。该场景拍摄精美，具有电影般的效果，展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。提示：一位白发梳得整整齐齐的老奶奶站在木质餐桌上的彩色生日蛋糕后面，蛋糕上插着无数蜡烛，脸上的表情是纯粹的喜悦和幸福，眼中闪烁着幸福的光芒。她倾身向前，轻轻地吹灭蜡烛，蛋糕上有粉红色的糖霜和糖珠，蜡烛不再闪烁，祖母穿着一件饰有花卉图案的浅蓝色衬衫，几个幸福的朋友和家人坐在桌边。看到庆祝，失去焦点。该场景拍摄精美，具有电影般的效果，展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。

弱点：模拟对象和多个角色之间的复杂交互通常对模型来说具有挑战性，有时会导致幽默的生成。

最后

去年 OpenAI 出的 GPTs 基本上把中间层的创业公司都搞死了，现在又突然出了一个技术断层级别的文生视频产品 Sora，这让其他的 AI 视频公司还怎么玩？

看到这里，大家是不是有点跃跃欲试了？

不过可惜的是，现在 Sora 并没有公开对大家开放测试入口，只发布了一个官方给大家展示效果。