OpenAI 官宣 Sora：后 GPT 时代的文本转视频模型

大家好，这里是大家的林语冰。坚持阅读，自律打卡，每天一次，进步一点。

免责声明

本文属于是语冰的直男翻译了属于是，略有删改，仅供粉丝参考。英文原味版请传送 Creating video from text。

本期共享的是 ------ 从文本创建视频的 AIGC 模型，Sora 是一个 AI 模型，可以根据文本指令创建现实且富有想象力的场景。

我们正在教授 AI 理解和模拟运动中的物理世界，目标旨在训练模型，辅助大家搞定需要现实世界交互的问题。

请允许我隆重介绍 Sora ------ 我们的文本转视频模型。Sora 可以生成长达一分钟的视频，同时保持视觉质量，并遵守用户提示。

如今，红队成员可以使用 Sora 来评估关键区域的危害或风险。我们还向某些视觉艺术家、设计师和电影制作人提供访问权限，获取有关如何改进该模型，且对创意专业人士最有帮助的反馈。

我们很早就共享了研究进展，开始与 OpenAI 的外部合伙人获取反馈，让公众了解近在眼前的 AI 功能。

Sora 能够生成具有多个角色、特定类型的运动、以及主体和背景的准确细节的复杂场景。Sora 不仅了解用户提示中的要求，还了解这些东东在物理世界的存在方式。

Sora 对语言深入理解，能够精准解释提示，并生成万众瞩目的字符，表达充满活力的情感。Sora 还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

当前的模型存在弱点。Sora 可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。举个栗子，一只猫可能咬了一口饼干，但之后饼干可能没有咬痕。

Sora 还可能会混淆提示的空间细节，比如混淆左右，且可能难以精准描述与时俱进的事件，比如遵循特定的相机轨迹。

安全性

在 OpenAI 产品中使用 Sora 之前，我们会采取若干重要的安全措施。我们正在与红队成员合作 ------ "错误信息、仇恨内容和偏见等领域的领域专家" ------ 它们会对模型进行对抗性测试。

我们还在构建工具，辅助检测误导性内容，比如检测分类器，可以判断 Sora 何时生成视频。如果我们在 OpenAI 产品中部署模型，我们计划将来包含 C2PA 元数据。

除了开发新技术来准备部署之外，我们还利用为使用 DALL·E 3 的产品构建的现有安全方法，这些方法也适用于 Sora。

举个栗子，在 OpenAI 产品中，我们的文本分类器将检查并拒绝违反我们的使用政策的文本输入提示，比如要求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。我们还开发了强大的图像分类器，用于检查生成的每个视频的帧，辅助确保它在向用户显示之前符合我们的使用政策。

我们会与世界各地的政策制定者、教育工作者和艺术家合作，了解它们的担忧，并确定这项新技术的积极用例。尽管进行了广泛的研究和测试，我们仍无法预测大家使用我们的技术的所有有益方式，也无法预测大家滥用我们的技术的所有方式。这就是为什么我们相信，随着时间的推移，从现实世界的使用中学习是创建和发布越来越安全的 AI 系统的关键组成部分。

研究技术

Sora 是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声，逐渐对其进行转换。

Sora 能够一次生成整个视频或扩展生成的视频，使其更长。通过一次为模型提供多个帧的预见，我们搞定了一个具有挑战性的问题，即确保主题即使暂时离开视野也保持不变。

与 GPT 模型类似，Sora 使用变压器架构，释放出卓越的扩展性能。

我们将视频和图像表示为名为补丁的较小数据单元的集合，每个补丁类似于 GPT 中的令牌。通过统一我们表示数据的方式，我们可以在比以前更广泛的视觉数据上训练扩散变换器，涵盖不同的持续时间、分辨率和纵横比。

Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，Sora 能够更忠实地遵循生成视频中用户的文本指令。

除了能够仅根据文本指令生成视频之外，Sora 还能够获取现有的静态图像，并从中生成视频，准确地动画图像的内容并聚焦细节。Sora 还可以获取现有视频，并对其进行扩展或填充缺失的帧。

Sora 是能够理解和模拟现实世界模型的基础，我们相信这一功能将成为实现 AGI 的重要里程碑。

本期话题是 ------ 您开始使用 AI 工具人进行学习或工作了吗？

欢迎在本文下方群聊自由言论，文明共享。谢谢大家的点赞，掰掰~

《前端 9 点半》每日更新，坚持阅读，自律打卡，每天一次，进步一点。