OpenAI 推出了其最新视频模型 Sora,这一基于生成式人工智能的创新引入了惊人的视频生成功能。Sora 模型展现出令人难以置信的自然、逻辑和微妙的情感,能够无缝融入周围环境。此外,Sora在视频制作中无违和地连接了现实和虚拟,展示了提取真人数据并作为数据黑匣子轻松处理任务的能力。这一创新预计将对日常生活产生重大影响,其应用范围超越文本生成和休闲对话,可能快速而深刻地重塑人类社会。本文结合当前披露出的有效信息,带您全面了解 Sora 模型。
横空出世
几天前,OpenAI 宣布了 2024 年迄今为止最重要的 AI 模型 ------ Sora,一种最先进的文本到视频模型,能够生成具有不同宽高比和分辨率的高质量、高保真度的 1 分钟视频。
让我们先看看 Sora 生成视频的效果:
此外,Sora 可以在文本提示词的引导下,将图像转化为视频,超越了简单的缩放外推和其他相对简单的技术。
这还不够,Sora 可以通过添加场景、创建循环、延长持续时间甚至插值来从其他视频中创建新的视频!
让我们暂时回归现实,OpenAI 目前并没有发布 Sora,该模型正在进行严格审查和安全检查。OpenAI 希望收集来自全球的 "政策制定者、教育者和艺术家" 的反馈。他们还在研发一个检测分类器来识别由Sora 制作的视频,并采取措施防止信息误导。
"深入 (bushi)" 探索
扩散模型
扩散模型是一种先进的人工智能技术,具有独特的"学习"方式。它从清晰的图像或视频数据开始,逐渐添加噪音,直到原始内容变得模糊。它核心在于逆转这一过程,逐步学会去除噪音,直至恢复原始数据,从而创造了一个能够生成逼真结果的人工智能系统。
为了对 Sora 给出指导,使用 GPT 模型将简单的文本提示扩展为针对视频生成量身定制的详细描述,这确保了即使是简要的想法也能转化为视觉丰富且准确的生成效果。就像如下示例:
提示词:The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it's tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds. (摄像机跟随一辆白色复古SUV,顶部有黑色行李架,它加速通过一条陡峭的土路,周围是松树,路面上升尘土,阳光照在SUV上,温暖的光芒洒在场景上。土路在远处轻轻弯曲,看不到其他车辆。路两旁是红杉树,零星分布着绿色植物。从后面看车辆顺利地跟随弯道,使其看起来好像在崎岖的地形中驾驶。土路被陡峭的山丘和山脉包围,头顶是湛蓝的天空,飘着淡淡的云。)
提示词:A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2(一座有舒适小屋和北极光显示的雪山村庄,使用高细节和照片般逼真的数码单反相机,50mm f/1.2镜头。)
Sora 是扩散 (Diffusion) 模型,它将扩散模型 (DALL-E 3) 与 Transformer 架构 (ChatGPT) 结合起来,这种混合使得模型能够以图像帧的时间序列形式处理视频,就像 ChatGPT 处理文本一样。
OpenAI 受到 DeepMind 在视觉 Transformer 方面的工作启发,将视频和图像表示为 "时空" 补丁的较小数据集合,每个补丁类似于 GPT 中的 Token。
与 OpenAI 近期的其他技术披露相似,Sora 也是一如既往的保持 "神秘性",其技术报告在复现工作或深入理解方面缺乏详细信息。在架构方面,我们只知道只知道 Sora 是一个 Diffusion Transformer;在训练数据方面,我们只知道是带有字幕的视频片段。不过业界普遍认为,训练数据中肯定包含虚幻引擎或者其他 3D 引擎制作的动画。
通用性和可扩展
Sora 不仅可以从文本中制作图像和视频,或者将图像和视频转换为其他视频,而且以一种通用的、可扩展的方式进行,这与竞争对手不同。
Sora "可以在单个生成的视频内创建多个镜头,准确保留角色和视觉风格。" 它可以制作长达1分钟的视频,当然也可以制作得尽可能短,支持不同分辨率的垂直、方形和宽屏视频。在报告中提到,"Sora 可以采样 1920 x 1080、1080 x 1920 以及介于两者之间的所有视频。"
除了多功能性外,Sora 似乎遵循与语言模型相似的扩展规律。通过增加计算量,生成质量显著提高,这同样要归功于 Transformer 架构的特性。
这种泛化、可扩展的特性是人们预测人工智能对迪士尼、环球等电影制作产生影响的原因。考虑到当前的进展,不难想象在几个月内人工智能模型能够创造出多场景、多角色的复杂视频,时长达可能到 5 至 10 分钟。
世界模拟器
Sora 是一个可以创建具有逼真现实世界互动的物理场景的人工智能模型,称之为 "世界模拟器" 并不为过。
OpenAI 表示,Sora 不仅理解提示中存在的风格、景观、人物、物体和概念等内容,还理解这些东西"如何存在于现实世界中"。不过 Sora 尽管它可能已经学会了一组隐含的物理规则,从而影响了视频生成过程,但这并不是一种强大的能力。不过毫无疑问,这是朝着这个方向迈出的第一步。"Sora 作为能够理解和模拟现实世界的模型的基础,我们认为这将是实现通用人工智能的重要里程碑。"
潜在问题
尽管 Sora 的能力令人印象深刻,但它在准确模拟复杂物理和理解详细的因果场景方面仍面临挑战。与许多人工智能模型一样,Sora 也反映了其大量人类生成的训练数据的偏见和局限性。
深度伪造图像目前已经变得越来越令人信服,曾经视频被认为是无可辩驳的见证事实发生的方式,但如今已经不再是这样了。OpenAI 正在寻找一种增强安全性的方法,但他们也表示:"尽管进行了广泛的研究和测试,但我们无法预测人们将如何利用我们的技术产生的所有有益方式,也无法预测人们将如何滥用它的所有方式。"
Sora 不出意外会重新定义我们与数字世界的互动,并模拟世界和视频游戏。这些世界是否会成为噩梦,我们将在接下来的几个月中见分晓。
提前布局
视频内容定制
为个人或企业提供个性化视频制作服务,客户提供他们想要的视频描述或脚本,可以使用 Sora 来实现他们的想法。
创建并销售数字内容包,其中包括使用 Sora 生成的预制视频。这些包可以包括库存素材、动态图形或动画场景,客户可以在其项目中使用,如演示文稿、社交媒体帖子或广告。
虚拟引导服务
利用 Sora 的文本到视频能力驱动虚拟旅游服务,深入涉足蓬勃发展的虚拟旅游行业,创建标志性地标、历史遗迹或异国风情目的地的沉浸式虚拟体验。
迎合旅行爱好者、教育机构和希望为他们的观众提供虚拟体验的企业,可以通过门票销售、赞助内容和高级访问选项来实现其价值。
AI 健身指导
利用 Sora 提供的 AI 技术,推出注入人工智能的健身教练计划,进入蓬勃发展的在线健身行业。利用Sora 的文本转视频技术,创建个性化的训练计划、运动教程和激励视频。
为寻求实现其健康目标的客户提供虚拟辅导课程、健身挑战和营养指导。
结语
Sora 是迈向未来的一大飞跃,在这个未来中,创造力和技术融合,创造了前所未有的机遇。如果继续处于这种飞速迭代的状态,我们可能很快就会拥有只受想象力限制的逼真视频模拟器。这些应用可能会在电影、游戏、内容创作等许多行业产生突破性和颠覆性的影响。