就在今天,OpenAI推特发布了一条非常炸裂的消息,正式发布了text-to-video文字生成视频的模型sora。这可能是近半年最具颠覆性的技术革命,因为它真正实现了视频的创造,而非runway之类只能生成数秒小范围运动轨迹的AI视频技术。从OpenAI最新上线的产品页介绍来看,Sora 可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。
这意味着手握公认最强大模型ChatGPT的OpenAI又一次给了市场不小的震撼,废话不多说,我们看下sora具备哪些能力。
Sora能力介绍
对语言深入理解,准确根据提示进行视频进行生成
该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感
提示:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
根据OpenAI官网介绍,
具备生成多角色,并且根据特定的运动类型和背景描述进行视频生成
Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
如以下两个根据提示生成的视频:
提示:镜头跟随一辆带有黑色车顶行李架的白色老式SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在SUV上行驶土路,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。
无聊提示:无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。
单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。
提示:美丽、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。
Sora当前存在的问题
当然,该模型当前也不是无所不能的,它还存在以下的问题
难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例
比如篮球碰撞没有形变,饼干吃了之后没有咬痕等。
提示:篮球穿过篮筐然后爆炸。提示:篮球穿过篮筐然后爆炸。
问题:不准确的物理建模和不自然的物体"变形"的例子。
可能混淆提示的空间细节
该模型对空间细节可能进行混淆,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
提示:打印一个人跑步的场景,35 毫米电影胶片。
问题:有时会产生身体上难以置信的动作。
提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。更多的提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。
问题:动物或人可能会自发出现,尤其是在包含许多实体的场景中
虽然当前sora还不是非常完美,但是当前的表现已经足够震撼。这也意味着影视频行业的格局后续可能会被AI彻底颠覆,因为只要你具备逻辑思维能力,那么你现在就能独立创作出一部自己的电影。