前言

在2024年2月16号，OpenAI宣布推出全新的生成式人工智能模型Sora。通过目前各大网站所提供的资料，我们可以很直观的理解为：Sora就是通过简单的文字指令生成一条长达60秒的视频，而视频中包含丰富细致的背景、多角度的镜头以及栩栩如生的角色。

这项技术的推出标志着OpenAI在AI领域的又一次突破，目前所了解的人工智能技术已经不仅仅局限于文字、图像，还扩展到了视频领域。

OpenAI表示：Sora具备理解和模拟现实世界的能力，这是实现AGI的重要里程碑

Sora是个啥？

以下内容翻译OpenAI官方发布的Sora技术报告，原文链接

Sora 模型基于 Transformer 架构，建立在 DALL·E3 和 GPT 模型之上，使用文本到视频的合成技术，按文本提示生成视频。这种技术将自然语言转换为视觉表示形式------图像或视频。

OpenAI 在官网展示 Sora 的生成逻辑

深度神经网络依然是 Sora 的基础，它是一个带有 Transformer 骨架的扩散（Diffusion）模型，AI 从数据中学习并执行复杂的任务。Sora 就是从"学习"的大型视频数据集里学会了各种风格、主题和流派。
Transformer 模型本质是一个编码器-解码器，输入原始语言，生成目标语言。扩散模型的原理是先给数据添加高斯噪声，再反向去除，从中恢复数据本貌。
简单粗暴地理解 Sora 的原理，就是翻译器+搜索引擎+概率制作（内容）。
首先，拿到提示词后，Sora 先分析文本，提取关键字，比如主题、动作、地点、时间和情绪，再从它的数据集里搜索与关键字匹配的、最合适的视频。
其次，Sora 将数据集里合适的视频混合在一起，重新创建一个符合要求的视频。在"创造"的过程中，它要"知道"场景中有哪些对象和角色，它们的外形，它们如何运动，对象如何交互，以及受到环境影响后如何表现。
根据用户的喜好，Sora 会修改视频的风格。假如用户想要一个 35 毫米胶片样式的视频，Sora 会调整效果，更改图像的亮度、色彩和摄像机角度。这一点和 Midjourney 等"文生图"应用类似。
Sora 可以生成分辨率 1920x1080 的视频，也可以基于静止图片创建视频，使用新素材扩展现有素材。比如用户给它一张森林图片，它可以帮你加上鸟、兽、人。给它一张汽车行驶图，它能加上道路、交通灯、沿途建筑物和风景。

Sora怎么申请？

截止2024年2月27号，OpenAI目前还没有针对Sora进行公开测试，也没有内测申请渠道，下面有两条关于openAI内测申请的信息源，不一定真实，大家仅供参考。

1、OpenAI官方论坛，加入论坛有机会获得内测资格

2、Red Team 公开招募，要求比较高

可能是有人在X上看到一些传言之后发布出来的两条申请渠道，大家仅供参考，不可相信网上199元带你玩转Sora的课程。

Sora的优势

优势	描述
精确多样	`Sora`能准确理解你输入长达135个文字的指示，你只需要简单描述即可让它制作出各种各样的高清视频，场景从人 - 动物 - 美景 - 游戏场景都可以轻松搞定。
超强理解	`Dall-E`的技术引入，可以让`Sora`更准确的理解文字指令，并且根据文本内容提高视频质量，加上`GPT`的技术辅助，还能让我们的简单描述变成更消息的指令，这样`Sora`就能生成更高质量的视频。
图片视频都能搞	除了文生视频，`Sora`还能处理图片和视频的输入，比如视频循环、静态照片变成动画，还能延长和缩短视频。由此可见`Sora`在编辑领域的超大潜力。
视频扩展功能	`Sora`可以根据不同的输入提示创建和扩展视频，也就是在`剪映`中常见的视频时间轴的基础上向前or向后延伸视频。（PS之前的AI支持图片扩展功能哦~）
设备适配性强	从官方视频中可见`Sora`能够适应各种视频尺寸，无论宽屏还是竖屏都可以轻松生成。
自然连贯	`Sora`能生成带有动态视角变化的视频，让任务和场景看起来更加的自然。