OpenAI最近又向公众展示了他们武器库里的一款新武器,仅凭一段文字即刻生成效果惊艳逼真视频的Sora。真不知道他们还藏着多少宝贝。
上面视频即是使用不到100文字描述生成的视频,提示词:电影预告片,讲述了 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明
这款被命名为Sora的新工具,在日语中的意思是"天空",标志着这家人工智能公司的又一次飞跃,与此同时,谷歌、Meta和Runway ML也在研发类似的模型。
使用Sora,可以仅仅输入一段文字,就能命令Sora创建长达一分钟的逼真视频。这项文本到视频技术的新进展标志着人工智能竞争中又一重要里程碑。期待快快开放Api调用。
Sora旨在理解并将文字指令转换为精细的视频场景,能够生成具有多个角色、特定类型动作以及主题和背景的精确细节的复杂场景。不仅仅是复制请求的内容,Sora还理解这些元素在物理世界中是如何存在的。并且它能从一张静态图片创建视频,这是视频生成技术的显著进步。
此外,这个模型可以填补现有视频中缺失的帧或延长其持续时间,增强了视频编辑过程的效率。
Sora理解物体在物理世界中是如何存在的,并能准确解读道具,生成表现出丰富情感的角色。
不过OpenAI也承认在准确模拟复杂场景的物理特性方面可能面临挑战,然而尽管如此,目前已有的视频生成无疑令人印象深刻,看起来Sora很可能会对电影行业和数字内容创作产生革命性影响。
在他们网站和X上发布的示例视频中,OpenAI展示了不少由Sora生成的视频以及所使用的提示词。
其中一个片段(下方视频)精确再现了一个现实感十足的女性在雨中漫步东京街头。
该视频的提示词:一位时尚女性走在东京的街道上,街道上到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色皮包,戴着太阳镜,涂着红色唇膏。
上面视频生成时使用的提示是:"几只巨大的毛茸茸的猛犸象脚踏雪地缓缓前行",画面中绝种动物在山脉附近行走,掀起粉末状的雪花。
上放视频是另一个由Sora生成的视频,提示词:"画中的怪物睁大眼睛、张开嘴巴注视着火焰,充满了惊奇和好奇。它的姿势和表情传达出一种天真和俏皮的感觉,仿佛它是第一次探索周围的世界。"。
这也是由sora生成的视频,提示词:渲染华丽的珊瑚礁纸艺世界,到处都是色彩斑斓的鱼类和海洋生物
生成该视频使用的提示词:美丽的东京雪景熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几位正在享受美丽雪景和在附近摊位购物的人们。绚丽的樱花花瓣伴随着雪花在风中飞舞
掘金无法展示视频,感兴趣的可以去X上关注OpenAI账号,发布了很多Sora生成的视频以及所用提示词。
关于OpenAI的Sora------一个文本到视频的AI模型常见问题
问:什么是Sora?
答:Sora是OpenAI公司开发的一种地标最强视频生成模型,OpenAI是人工智能领域的老大。
问:Sora能做什么?
答:Sora旨在将文字指令转换为精细的视频场景。它能够生成具有多个角色、特定类型动作以及主题和背景的精确细节的复杂场景。还可以从单张静态图片创建视频,并填补现有视频中缺失的帧。
问:Sora如何有利于视频编辑过程?
答:Sora生成视频和填补缺失帧的能力提高了视频编辑过程的效率。
问:有哪些与Sora类似的AI模型?
答:Meta的Emu是另一个AI模型,它可以根据文本提示生成图像和视频。
问:Sora为内容创作者和消费者带来了什么可能性?
答:Sora在文本到视频AI模型方面的进步表明,AI生成短视频的未来正在迅速临近,为内容创作者和消费者带来了新的可能性和挑战。
定义:
AI: 人工智能,即在机器中模拟人类智能以执行通常需要人类智能的任务。
提示词: 向AI模型提供的书面指令或输入。
文本到视频技术: 将文字指令转换成视频场景的能力。
视频编辑: 操纵和重新排列视频片段以创建最终编辑视频的过程。