OpenAI Sora的全面解读和使用教程

说明

2024/02/15，农历正月初六，OpenAI发布了王炸级别Sora，openai.com/sora

Sora可以根据文字描述生成长达60s的视频，画面非常流畅，真实度很高。一下子在国内互联网炸开了锅，得到了广泛的传播。目前Sora生成视频的质量基本上秒杀了市面上所有的文字生成视频的产品。对比其他产品，Pika是3秒，Runway是4秒，Sora生成的视频是60秒，简直就是秒杀，而且生成的分辨率也非常高，几乎可以做到以假乱真。Sora注定会像ChatGPT一样，成为一个颠覆很多行业的产品。

PS：目前Sora还没有开放使用。不过按照以往的惯例，一般新功能都会优先开放给ChatGPT Plus用户使用。需要注册或者是升级ChatGPT Plus的用户可以参考升级ChatGPT Plus保姆级教程这个教程，一分钟完成注册升级。

Sora原理

Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩展模型，同时采用了Transformer架构，也就是一种扩散型Transformer。

简单来说，Soar整合了自家的GPT和DALL-E模型。其中，GPT-4就是基于Transformer架构的大型神经网络，目前是最强大的大预言模型。而最新的DALL-E3是基于文本提示生成图像的图像生成模型。

关于具体技术细节，官方报告简单提出了以下6点：

视觉数据的补片化

在具体操作中，模型先将视频压缩到低维潜空间中，然后将它们表示分解为时空补片，从而将视频转换为补片。

视频压缩网络技术

降低视觉数据维度，输入视频，输出时空上压缩的潜表示。OpenAI为此训练了一个专门的解码器。

时空补片技术

给定一个压缩的输入视频，模型提取一系列时空补片，充当Transformer的token。基于补片的表示，Sora就够对不同分辨率、持续时间和长宽比的视频和图像进行训练。这种技术就类似于目前很多手机看视频都在使用的动态插帧技术一样。

扩展Transformer

OpenAI发现，扩散型Transformer不仅可以用在ChatGPT的文本生成领域，同样能在视频模型领域中完成高效扩展。

下面将分别说明针对每个视频展示提示词，官方目前给出的u全部都是英文提示词，为了便于大家学习和理解。我也会同步给出相对应的中文提示词。

视频多样化

相比较其他的文字生成视频技术，OpenAI是在直接视频数据的原始尺寸上进行了训练。所以Sora就可以不同分辨率、时长、宽高比的视频，这一点也是其他的产品无法比拟的。

语言理解

毋庸置疑，ChatGPT Plus是目前市面上最为强大的大预言模型。OpenAI也用GPT来将用户简短的提示转换为更长的详细说明，然后发送给Sora。Sora的文字理解能力也表现得非常出色。

关于技术的介绍报告只提了这么多，剩下的大篇幅都是围绕Sora的一系列效果展示，包括文转视频、视频转视频，以及图片生成。限免就具体看看Sora官网上给出的生成的视频，感受下视觉震撼。

Sora 视频案例

共选择了10个经典的视频供大家欣赏和学习。

场景一

原始提示词

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

中文提示词

一位时髦的女士穿行在东京的街头，街道两旁是温暖闪烁的霓虹灯和充满活力的城市标志。她身着黑色皮夹克，长款红裙和黑色靴子，手提一只黑色手袋。她佩戴着太阳镜和红色口红。她走路充满自信又随意。街道潮湿且具有反射效果，彩色的灯光在地面上创造出镜面效果。许多行人在街上来往穿梭。

对应效果是

场景二

原始提示词

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

中文提示词

一位时髦的女士穿行在东京的街头，街道两旁是温暖闪烁的霓虹灯和充满活力的城市标志。她身着黑色皮夹克，长款红裙和黑色靴子，手提一只黑色手袋。她佩戴着太阳镜和红色口红。她走路充满自信又随意。街道潮湿且具有反射效果，彩色的灯光在地面上创造出镜面效果。许多行人在街上来往穿梭。

对应效果是

场景三

原始提示词

A Chinese Lunar New Year celebration video with Chinese Dragon

中文提示词

中国农历新年庆祝视频与中国龙

对应效果是

场景四

原始提示词

A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer

中文提示词

一只猫叫醒了正在睡觉的主人，要求吃早饭。主人试图忽略猫，但猫尝试了新的策略，最后主人从枕头下拿出了一个秘密的零食，让猫多待一会儿

对应效果是

场景五

原始提示词

A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in

中文提示词

一窝金毛猎犬小狗在雪地里玩耍。他们的头从雪中探出头来，身上覆盖着

对应效果是

场景六

原始提示词

A Samoyed and a Golden Retriever dog are playfully romping through a futuristic neon city at night. The neon lights emitted from the nearby buildings glistens off of their fur

中文提示词

一只萨摩耶犬和一只金毛猎犬在夜晚的霓虹灯城市里嬉戏。附近建筑物发出的霓虹灯在它们的皮毛上闪闪发光

对应效果是

场景七

原始提示词

A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat's orange fur. The shot is clear and sharp, with a shallow depth of field

中文提示词

一只白橙相间的虎斑猫欢快地在茂密的花园里窜来窜去，好像在追逐什么东西。它的眼睛睁得大大的，欢快地向前跑着，一边走一边扫视着树枝、花朵和树叶。这条小路很窄，因为它在所有的植物之间穿行。这个场景是从地面的角度拍摄的，紧跟在猫后面，给人一个低而亲密的视角。图像是电影般的暖色调和颗粒纹理。树叶和植物之间分散的日光形成了温暖的对比，突出了猫的橙色皮毛。这张照片清晰锐利，景深浅

对应效果是

场景八

原始提示词

Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes

中文提示词

美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，在附近的摊位上购物。绚丽的樱花花瓣随着雪花在风中飞舞

对应效果是

场景九

原始提示词

Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee

中文提示词

两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频

对应效果是

场景十

原始提示词

A young man at his 20s is sitting on a piece of cloud in the sky, reading a book

中文提示词

一个20多岁的年轻人坐在天空的一片云上读书

对应效果是

Sora的视频特点

高质量的视觉呈现

Sora模型升级和训练解决了很大一部分物理逻辑问题，能够理解和模拟现实中的运动。Sora生成的视频不仅完整清晰，更不会给人以现实的突兀感，几乎可以和专业人士花费大量时间制作的专业视频相媲美了。

下面展示的就是不同的文生视频产品的对比图。可以看到Sora生成的视频角度是最好的。

时长一分钟

其他AI视频工具像Runway、Pika、Domo AI生成的视频时长很短，只有5秒左右，给人的感觉其实就是一个GIF的动图。而Sora生成的视频是60秒。其中的视频画面是一直保持动态，并且有交互过程。这些是其他的视频工具无论是时长还是质量上都无法超越的。

下图就是展示Sora和Runway的视频对比图，没有对比就没有差距。当你体验过好的产品之后，就再也不用了之前的。

多角度视觉呈现

通过前面的示例视频也可以发现Sora可以生成多种角度的视频，包括特写、远景、航拍、拉远、推进等等角度。

就算是旋转镜头，也能保持视觉主体的稳定与清晰，完全可以和高质量的CG作品比拼了。

真实的画面感

其他AI视频工具像Runway、Pika、Domo AI生成的视频很容易辨别出来时AI画作的，无论是镜头语言还是整个画面的色彩丰富度基本上都是保持不变的，这也就是我们常说的AI味。Sora模拟呈现的镜头感非常真实，并不会随着元素的运动而混乱或丢失。在某些情况下甚至可以达到以假乱真的地步。

精准的文本理解

Sora使用了DALL·E 3中的重新标注技术，准备了大量带有文本标题的视频数据，通过训练一个高度描述性的标题模型 ，为所有视频生成文本标题，来提高文本准确性，改善了视频质量。同时，Sora利用GPT将用户简短的提示转化为更长、更详细的标题 ，指导视频的生成过程，从而使Sora能够生成高质量的视频，并准确地遵循用户的指示。

其他模型在这块做得不够好，所以是通过图片合成视频。并且其他的模型也没有OpenAI在ChatGPT的大预言模型方便的强大的技术实力，所以如果需要生成令人满意的视频，需要花费大量的时间和精力去矫正。

Sora如何使用

需要说明的是，截止到本篇文章发布时间，Sora仅仅只是对极少数用户开放了。不过按照以往的惯例，一般新功能都会优先开放给ChatGPT Plus用户使用。需要注册或者是升级ChatGPT Plus的用户可以参考升级ChatGPT Plus保姆级教程这个教程，一分钟完成注册升级。后续等到Sora开放之后，就可以立马使用体验。

使用准备

Sora的使用前准备和ChatGPT Plus的要求一样，首先需要升级至ChatGPT Plus账号，找到后续对应的Sora开放入口，申请好Sora的权限。然后准备好对应需生成的视频文本描述语言。

输入提示词

和这篇文章说过样，需要通过一个提示词描述你想要生成的视频的场景。越详细越具体越好，这样生成的视频就会越精确。该如何编写需要的视频提示词，可以参考上一章节中的Sora视频案例，每一个视频都给出了相应的提示词。首先可以从模仿开始，然后写出自己想要的视频的提示词。

等待视频生成

输入了提示词之后，需要等待Sora按照你的提示词生成对应的视频。根据提示词描述的视频的复杂程度，Sora生成视频的时间长度不等。一般情况下，如果你的提示词描述的视频内容越清楚、也具体，那么生成视频的速度也就越快。

优化提示词

肯定你第一次通过提示词生成的视频无法达到你的要求，此时你就需要需要不断优化你的提示词，针对不满足条件的地方进一步细化，给出更加具体的描述，然后继续生成视频，不断地完善这个过程，直到生成你满意的视频为止。

Sora提示词

对于一个精良的视频来说，对应的好的提示词也是必不可少的。如果我们给出的提示词对于视频的描述越精确，那么生成的视频就能够更加符合我们的要求。通过分析OpenAI给出的视频对应的提示词，我归纳出了对于一个好的提示词来说，应该具体的以下特点。

时间描述

黄昏、黎明、早晨、中午、下午、夜幕降临

位置描述

办公室、卧室、餐厅、酒吧、公园、街道

天气情况

晴天、阴天、雨/雪、有雾、有风

视觉风格

魔幻现实主义：如拉美魔幻现实主义电影
印象派：追求零碎的印象，柔和的意象
表现主义：表达主观情感，夸张的意象
德国表现主义：鲜明的对比、扭曲的取景、夸张的表演、深刻的主题
粗犷风格：粗犷、自然的风景和剪辑
立体主义：强烈的3D感觉，明显的布景设计
未来主义：夸张、未来主义的布景设计
情绪风格：抽象、梦幻般的情绪

色调

冷色、暖色、高对比度、低对比度、饱和度、去饱和度、单色、鲜明色块、钢蓝、黄金时段、复古、黑色等不同色彩效果

OpenAI Sora常见问题

OpenAI Sora申请

截止到本篇文章发布时间，Sora仅仅只是对极少数用户开放了。不过按照以往的惯例，一般新功能都会优先开放给ChatGPT Plus用户使用。需要注册或者是升级ChatGPT Plus的用户可以参考升级ChatGPT Plus保姆级教程这个教程，一分钟完成注册升级。后续等到Sora开放之后，就可以立马使用体验。

OpenAI Sora优势

目前Sora生成视频的质量基本上秒杀了市面上所有的文字生成视频的产品，无论是时长还是视频质量。Sora的视频主要有以下优势：

高质量的视觉呈现。Sora生成的视频不仅完整清晰，更不会给人以现实的突兀感
1分钟的视频。其他AI视频工具像Runway、Pika、Domo AI生成的视频时长很短，只有5秒左右。
多角度视觉呈现。Sora可以生成多种角度的视频，包括特写、远景、航拍、拉远、推进等等角度。
真实画面感。Sora模拟呈现的镜头感非常真实，并不会随着元素的运动而混乱或丢失。在某些情况下甚至可以达到以假乱真的地步。
精准的文本理解。Sora使用了DALL·E 3中的重新标注技术，准备了大量带有文本标题的视频数据，使得Sora生成的视频更加符合提示词的描述。

OpenAI Sora适用领域

因为Sora主要是生成视频工具，所以凡是和视频相关的了领域，Sora都有可能应用到该领域。目前看来，Sora有可能在以下领域等到广泛应用。

视频创作：使用 Sora 可以轻松生成各种类型的视频片段，包括电影、动画、广告等。
社交媒体推广：Sora 可以帮助用户创建有趣、引人注目的视频内容，提升社交媒体的曝光度。
游戏开发：开发者可以利用 Sora 制作游戏中的角色动画和场景效果，为游戏增加交互性和趣味性。

无论是影视创作、广告宣传还是游戏开发，OpenAI Sora 都能为用户带来更高效、创意丰富的视频制作体验。

如果你是以上行业的从业者，不妨趁早注册使用起来。

目前Sora还没有开放使用。不过按照以往的惯例，一般新功能都会优先开放给ChatGPT Plus用户使用。需要注册升级用户参考升级ChatGPT Plus保姆级教程这个教程，一分钟完成注册升级。

原文链接：OpenAI Sora的全面解读和使用教程