OpenAI 官宣 Sora:后 GPT 时代的文本转视频模型

大家好,这里是大家的林语冰。坚持阅读,自律打卡,每天一次,进步一点

免责声明

本文属于是语冰的直男翻译了属于是,略有删改,仅供粉丝参考。英文原味版请传送 Creating video from text

本期共享的是 ------ 从文本创建视频的 AIGC 模型,Sora 是一个 AI 模型,可以根据文本指令创建现实且富有想象力的场景。

我们正在教授 AI 理解和模拟运动中的物理世界,目标旨在训练模型,辅助大家搞定需要现实世界交互的问题。

请允许我隆重介绍 Sora ------ 我们的文本转视频模型。Sora 可以生成长达一分钟的视频,同时保持视觉质量,并遵守用户提示。

如今,红队成员可以使用 Sora 来评估关键区域的危害或风险。我们还向某些视觉艺术家、设计师和电影制作人提供访问权限,获取有关如何改进该模型,且对创意专业人士最有帮助的反馈。

我们很早就共享了研究进展,开始与 OpenAI 的外部合伙人获取反馈,让公众了解近在眼前的 AI 功能。

Sora 能够生成具有多个角色、特定类型的运动、以及主体和背景的准确细节的复杂场景。Sora 不仅了解用户提示中的要求,还了解这些东东在物理世界的存在方式。

Sora 对语言深入理解,能够精准解释提示,并生成万众瞩目的字符,表达充满活力的情感。Sora 还可以在单​​个生成的视频中创建多个镜头,准确地保留角色和视觉风格。

当前的模型存在弱点。Sora 可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。举个栗子,一只猫可能咬了一口饼干,但之后饼干可能没有咬痕。

Sora 还可能会混淆提示的空间细节,比如混淆左右,且可能难以精准描述与时俱进的事件,比如遵循特定的相机轨迹。

安全性

在 OpenAI 产品中使用 Sora 之前,我们会采取若干重要的安全措施。我们正在与红队成员合作 ------ "错误信息、仇恨内容和偏见等领域的领域专家" ------ 它们会对模型进行对抗性测试。

我们还在构建工具,辅助检测误导性内容,比如检测分类器,可以判断 Sora 何时生成视频。如果我们在 OpenAI 产品中部署模型,我们计划将来包含 C2PA 元数据。

除了开发新技术来准备部署之外,我们还利用为使用 DALL·E 3 的产品构建的现有安全方法,这些方法也适用于 Sora。

举个栗子,在 OpenAI 产品中,我们的文本分类器将检查并拒绝违反我们的使用政策的文本输入提示,比如要求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。我们还开发了强大的图像分类器,用于检查生成的每个视频的帧,辅助确保它在向用户显示之前符合我们的使用政策。

我们会与世界各地的政策制定者、教育工作者和艺术家合作,了解它们的担忧,并确定这项新技术的积极用例。尽管进行了广泛的研究和测试,我们仍无法预测大家使用我们的技术的所有有益方式,也无法预测大家滥用我们的技术的所有方式。这就是为什么我们相信,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的 AI 系统的关键组成部分。

研究技术

Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声,逐渐对其进行转换。

Sora 能够一次生成整个视频或扩展生成的视频,使其更长。通过一次为模型提供多个帧的预见,我们搞定了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。

与 GPT 模型类似,Sora 使用变压器架构,释放出卓越的扩展性能。

我们将视频和图像表示为名为补丁的较小数据单元的集合,每个补丁类似于 GPT 中的令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变换器,涵盖不同的持续时间、分辨率和纵横比。

Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,Sora 能够更忠实地遵循生成视频中用户的文本指令。

除了能够仅根据文本指令生成视频之外,Sora 还能够获取现有的静态图像,并从中生成视频,准确地动画图像的内容并聚焦细节。Sora 还可以获取现有视频,并对其进行扩展或填充缺失的帧。

Sora 是能够理解和模拟现实世界模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。

本期话题是 ------ 您开始使用 AI 工具人进行学习或工作了吗?

欢迎在本文下方群聊自由言论,文明共享。谢谢大家的点赞,掰掰~

《前端 9 点半》每日更新,坚持阅读,自律打卡,每天一次,进步一点

相关推荐
HyperAI超神经8 分钟前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
sp_fyf_202411 分钟前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03
人工智能·算法·机器学习·计算机视觉·语言模型·自然语言处理
新缸中之脑17 分钟前
10个令人惊叹的AI工具
人工智能
学步_技术22 分钟前
自动驾驶系列—线控悬架技术:自动驾驶背后的动力学掌控者
人工智能·机器学习·自动驾驶·线控系统·悬挂系统
DogDaoDao1 小时前
【预备理论知识——2】深度学习:线性代数概述
人工智能·深度学习·线性代数
牛哥带你学代码1 小时前
交叠型双重差分法
人工智能·深度学习·机器学习
学步_技术1 小时前
自动驾驶系列—线控系统:驱动自动驾驶的核心技术解读与应用指南
人工智能·机器学习·自动驾驶·线控系统·转向系统
jmoych2 小时前
AI正悄然地影响着企业数字化转型
人工智能
说私域2 小时前
社群团购中的用户黏性价值:以开源小程序多商户AI智能名片商城源码为例
人工智能·小程序
深度学习实战训练营2 小时前
基于keras的停车场车位识别
人工智能·深度学习·keras