OpenAI Sora:距离黑客帝国仅一步之遥

在2024年2月15日,OpenAI 介绍了其今年最为突破性的人工智能创新------Sora。Sora 不仅是一款前沿的文本到视频转换模型,更是在技术发展史上的一座里程碑。它拥有生成多种宽高比和分辨率下、长达一分钟的高质量视频的独特能力,将现有技术水平提升到了新的高度。与市面上其他同类产品相比,Sora的先进性不容小觑,功能之全面、扩展性之强大,使其获得了"世界模拟器"的美誉。

本文目的是向那些对Sora尚未有深入了解的读者提供一个清晰、易懂的介绍。不论您是在社交媒体上偶然瞥见一些由Sora生成的视频,还是对人工智能技术抱有浓厚兴趣,这里都将是您获得宝贵信息的宝库。我们将不仅仅是浅尝辄止地介绍Sora模型,而是深入其技术细节,引用技术报告中的"非同寻常"内容,并借助一些精心挑选的示例,以及对Sora训练方法及未来可能升级的深刻见解和假设,全面、生动地展示这一创新技术的精髓。

尽管OpenAI对外公布了Sora,但目前该模型还未正式发布,仍处于内部的红队测试和安全审核阶段。OpenAI正通过这一过程,期待能从全球的政策制定者、教育工作者以及艺术家那里收集宝贵的反馈。此外,为了确保技术的负责任使用,OpenAI也在积极研究开发旨在识别由Sora生成的视频的检测分类器,并探索防止误信息传播的有效策略。

Sora 是一个文本转视频模型

Sora代表了在文本到视频转换领域的一个巨大飞跃,其高质量输出令人印象深刻。以下是三个我个人极其喜爱的示例,展示了Sora技术的多样性和创新能力。第一个示例以其惊艳的色彩搭配抓住了我的视线;第二个示例则以其逼真度震撼了我,让人难以相信这是由AI生成的视频;而第三个示例则凭借其超凡的风格,展现了Sora在艺术创作上的潜力。这些示例不仅展示了Sora技术的先进性,也预示了未来在创意和艺术表达方面的无限可能。

Sora 不仅仅是一个文本到视频的模型,它的功能远超过简单的缩放或其他基本技术。通过文本提示,Sora 能够将静态图像动画化成视频,具备以下创新功能:

从现有视频创建全新视频,通过增加场景、创建循环、延长视频时长,甚至进行帧间插值,如融合无人机与蝴蝶的场景(以及其他示例);

尽管主要是视频生成模型,Sora 也能够从文本生成高质量图片(类似于 DALL-E 和 Midjourney,而且在某些方面可能更胜一筹),这得益于其内部的重新标题过程(这一过程在 DALL-E 3 中已有体现,但在Sora中扩展到视频生成);

Sora 在视频相关的生成方面,尤其是视频内容的创造,执行得比任何竞争对手都要好(例如与 Google Lumiere 对比)。

Sora 是一种扩散 transformer

Sora 是一种融合了扩散模型(DALL-E 3)和变换器架构(ChatGPT)的先进技术。这种结合使得模型能够像 ChatGPT 处理文本一样处理视频(视为一系列时间序列的图像帧)。

具体来说,OpenAI 受到 DeepMind 在视觉变换器方面工作的启发,采用了一种将视频和图像表示为称为"时空补丁"的较小数据单元集合的方法,这与 GPT 中的"令牌"概念类似。以下是来自技术报告的一个高层次可视化展示:

正如我之前提到的,这份技术报告因其细节内容稀缺,难以复制研究工作或深入理解技术细节,因此"值得引号"。关于其确切的架构,我们所知甚少,仅知道它是一个扩散变换器;关于训练数据,我们也所知不多,只知道是有标题的视频。

一种我见过的假设认为,至少部分训练数据来自 Unreal Engine 5(如元人类、矩阵演示)或其他3D引擎(这是根据产生的特定人工瑕疵推测的)。使用神经辐射场(NerF)数据也是另一种假设。可能还有我们永远不会知道的各种数据混合使用。

Sora 是一个通用的、可扩展的视觉数据模型

Sora 不仅能够从文本生成图片和视频,或是将图片和视频转换成其他视频,它还以一种通用且可扩展的方式完成这些任务,这是其竞争对手所不具备的。

例如,Sora 能够在单个生成的视频中创建多个镜头,并准确地保持人物角色和视觉风格的连续性。它可以制作长达一分钟的视频,同时也可以根据需要制作更短的视频。用户可以制作不同分辨率的纵向、方形和横向视频。根据报告:"Sora 能够生成宽屏的1920x1080p视频、纵向的1080x1920视频以及介于两者之间的所有类型。"这里有一个示例。

视频地址:twitter.com/_tim_brooks...

Sora 的多功能性以及可扩展性似乎遵循了与语言模型相似的规模化法则。仅仅通过增加计算能力,就能显著提高质量,这得益于变换器架构的特性。这里有一个示例。

视频地址:twitter.com/tsarnick/st...

正是这种通用和可扩展的特性,激发了人们对于AI将颠覆好莱坞和影视制作行业的预测。考虑到进步的速度,想象在几个月内,AI模型能够创造多场景、多角色的复杂视频,长达5到10分钟,并不是不可能的事。

还记得一年前的威尔·史密斯吃意大利面吗?

视频地址:www.youtube.com/watch?v=XQr...

Sora 是一个(原始的)世界模拟器

Sora 被誉为一款(原始的)世界模拟器,这一消息让我感到既兴奋又有些担忧。

首先,来简要回顾一下。Sora 是一个文本到视频的模型。虽然它比其他模型更加出色,但这种技术已经存在。Sora 是一个扩散变换器。同样,OpenAI 并非发明了这种组合,尽管他们加入了一些有趣的自定义成分。Sora 是一个通用且可扩展的视觉模型。从这里开始,事情变得越来越有趣。它为未来的研究打开了可能性,值得我们感到惊讶。

但最重要的是,Sora 是一个能够创建物理上合理、具有可信实世界互动场景的AI模型。Sora 是一个世界模拟器。确实,它还很原始(有时候失败得如此之惨,不得不称之为"梦幻物理学"),但它是第一个这样的尝试。

OpenAI 表示,Sora 不仅理解风格、风景、人物、物体和提示中存在的概念等,而且还理解"这些事物在物理世界中的存在方式"。我想对这一说法进行一定的限定,Sora 的奇异失败表明,虽然它可能学习了一套隐含的物理规则来指导视频生成过程,但这并不是一个稳固的能力(OpenAI 也承认了这一点)。但无疑,这是朝那个方向迈出的第一步。

OpenAI 对于 Sora 作为世界模拟器的更多描述(为了清晰已编辑):

【Sora 能够】模拟物理世界中人类、动物和环境的某些方面。这些属性是在没有任何明确的3D、物体等归纳偏见下自然产生的------它们完全是规模现象。

模拟能力包括:3D一致性;长距离连贯性和物体持久性(例如,我们的模型可以持续保持人物、动物和物体,即使它们被遮挡或离开画面);与世界互动(例如,画家可以在画布上留下随时间持续的新笔触);模拟数字世界(例如, Minecraft

吉姆·范的看法(以及他对海盗船战视频的分析):

Sora 是一个端到端的扩散变换器模型。它直接将文本/图像输入并输出视频像素。通过大量视频的梯度下降,Sora 在神经参数中隐式学习了一个物理引擎。Sora 是一个可学习的模拟器,或称为"世界模型"。

视频地址:twitter.com/DrJimFan/st...

当然,它并没有显式调用 UE5 [Unreal Engine 5],但有可能将 UE5 生成的(文本,视频)对作为合成数据添加到训练集中。

OpenAI 以以下句子结束了博客文章:

Sora 为那些能理解和模拟真实世界的模型奠定了基础,我们认为这将是实现通用人工智能(AGI)的重要里程碑。

相关推荐
HyperAI超神经22 分钟前
未来具身智能的触觉革命!TactEdge传感器让机器人具备精细触觉感知,实现织物缺陷检测、灵巧操作控制
人工智能·深度学习·机器人·触觉传感器·中国地质大学·机器人智能感知·具身触觉
galileo201634 分钟前
转化为MarkDown
人工智能
说私域1 小时前
私域电商逆袭密码:AI 智能名片小程序与商城系统如何梦幻联动
人工智能·小程序
请站在我身后1 小时前
复现Qwen-Audio 千问
人工智能·深度学习·语言模型·语音识别
love you joyfully2 小时前
目标检测与R-CNN——paddle部分
人工智能·目标检测·cnn·paddle
AI视觉网奇2 小时前
Detected at node ‘truediv‘ defined at (most recent call last): Node: ‘truediv‘
人工智能·python·tensorflow
西西弗Sisyphus2 小时前
开放世界目标检测 Grounding DINO
人工智能·目标检测·计算机视觉·大模型
抓哇能手2 小时前
数据库系统概论
数据库·人工智能·sql·mysql·计算机
火云洞红孩儿3 小时前
基于AI IDE 打造快速化的游戏LUA脚本的生成系统
c++·人工智能·inscode·游戏引擎·lua·游戏开发·脚本系统
风清扬雨3 小时前
【计算机视觉】超简单!傅里叶变换的经典案例
人工智能·计算机视觉