在 2024 年 2 月 16 日，Open AI 宣布推出全新的生成式人工智能模型"Sora"。据了解，通过文本指令，Sora 可以直接输出长达 60 秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

这意味着，继文本、图像之后，OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示，Sora 是能够理解和模拟现实世界的模型的基础，这一能力将是实现 AGI（通用人工智能）的重要里程碑。

对于 OpenAI 视频生成模型的出现，业内其实早有预期，但仍有人评价称"比想象中来得更快"，亦有人振奋地表示"我们真的看到新工业革命来临"。

Sora 官方网址：openai.com/sora

目前OpenAI官网上已经更新了48个Sora生成的视频Demo，色彩艳丽，效果逼真。

2024年的真正红利点：文生视频。

原理理解及达到效果

用ChatGPT能力做视频文本对齐，将多个高分辨率视频素材进行降维处理，进行密集训练，最后大力出奇迹。

最终我们只需要一段提示词，就可以生存60s的1080p的视频。

另外，Sora还可以从静态图像生成动画，或者扩展现有视频，从而创建出更多的画面，保持角色和视觉风格的一致性。

现有问题

该模型会混淆提示的空间细节，并且难以模拟复杂场景中的物理现象。

截止目前，Sora没有公开测试，也没有内测申请渠道，国内是没有渠道可以去尝试的。

下面信息仅供参考：

据不完全统计，过去一年来全球AI生成视频类赛道的融资已经超过数十亿美金，其中大部分公司都以种子轮、A轮为主。

今年1月底，A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望，并盘点了市场长超过20个明星产品。

可理解长达135个单词的长提示，准确解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。

利用Dell-E模型的re-captioning技术，生成视觉训练数据的描述性字幕，不及可以提高文本的准确性，还可以提升视频质量。

Sora不仅可以接受多样的提示词，还能接受已存在的图像和视频。

Sora具备出色的采样能力，从宽屏的1920x1080到竖屏的1080x1920，两者之间的任何视频尺寸都能轻松应对。

作为基于Transformer的扩散模型，Sora还能沿时间线向前或向后扩展视频。

Sora可以生成带有生成带有动态视觉变化的视频，任务和场景元素在三维空间中的移动会显得更加自然。