Sora初步介绍

在 2024 年 2 月 16 日,Open AI 宣布推出全新的生成式人工智能模型"Sora"。据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

这意味着,继文本、图像之后,OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑

对于 OpenAI 视频生成模型的出现,业内其实早有预期,但仍有人评价称"比想象中来得更快",亦有人振奋地表示"我们真的看到新工业革命来临"。

Sora 官方网址:openai.com/sora

Sora论文网址:openai.com/research/vi...

目前OpenAI官网上已经更新了48个Sora生成的视频Demo,色彩艳丽,效果逼真。

2024年的真正红利点:文生视频。

原理理解及达到效果

用ChatGPT能力做视频文本对齐,将多个高分辨率视频素材进行降维处理,进行密集训练,最后大力出奇迹。

最终我们只需要一段提示词,就可以生存60s的1080p的视频。

另外,Sora还可以从静态图像生成动画,或者扩展现有视频,从而创建出更多的画面,保持角色和视觉风格的一致性。

现有问题

该模型会混淆提示的空间细节,并且难以模拟复杂场景中的物理现象。

正式发布时间预测

如何使用

截止目前,Sora没有公开测试,也没有内测申请渠道,国内是没有渠道可以去尝试的。

下面信息仅供参考:

各模型对比

能力 Sora 其他
架构 Transformer U
-Net为主
驱动方式 数据 图片
世界理解能力
数字世界模拟 支持 不支持
世界互动能力 支持 不支持
3D运动连贯性
物体一致性
物体持久性/连续性
文本理解 一般
运动控制 其他 提示词+运动控制工具
无缝连接能力 一般
视频到视频编辑 支持 部分
扩展生成视频 前/后
视频时长 60s 2-4s
原生纵横比 支持 不支持
清晰度 1080P 最高4k(Runway)

相同指令下不同视频模型对比

internal-api-drive-stream.feishu.cn/space/api/b...

AI视频玩家盘点

据不完全统计,过去一年来全球AI生成视频类赛道的融资已经超过数十亿美金,其中大部分公司都以种子轮、A轮为主。

今年1月底,A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望,并盘点了市场长超过20个明星产品。

Sora优势

  1. 准确性和多样性

可理解长达135个单词的长提示,准确解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。

  1. 强大的语言理解

利用Dell-E模型的re-captioning技术,生成视觉训练数据的描述性字幕,不及可以提高文本的准确性,还可以提升视频质量。

  1. 以图/视频生成视频

Sora不仅可以接受多样的提示词,还能接受已存在的图像和视频。

  1. 优秀的设备适配性

Sora具备出色的采样能力,从宽屏的1920x1080到竖屏的1080x1920,两者之间的任何视频尺寸都能轻松应对。

  1. 视频扩展功能

作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。

  1. 场景和物体的一致性和连续性

Sora可以生成带有生成带有动态视觉变化的视频,任务和场景元素在三维空间中的移动会显得更加自然。

Sora可能带来的影响

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的"虚拟偶像",此前的二次元人物并没有真正达到"偶像"的级别。

  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。

  3. Sora 可能才是真正的文生视频,此前的文生视频大多只有 2 秒,仅仅是对象的小幅度移动。

  4. OpenAI 继续拉大领先程度,对众多还在进行大模型测试打分 pk 的厂商,构成压力。

  5. 直接的影响是影视行业,特别是特效行业。使用 AI 来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。

  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。

  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用 AI 来代替,可能会有很多视频剪辑师失业。

  8. 对于很多短视频创作者来说,用 AI 来替代繁琐的剪辑工作,可以大幅提高工作效率。

  9. 很多歌手拍摄 MV 都是大成本制作,如果可以用 AI 来生成所需要的 MV 画面,也可以省去很大一部分制作成本。

  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。

相关推荐
三桥君2 天前
我为什么决定关闭ChatGPT的记忆功能?
人工智能·ai·自然语言处理·chatgpt·prompt·openai·ai产品经理
Dlimeng2 天前
2024年OpenAI DevDay发布实时 API、提示缓存等新功能
人工智能·深度学习·ai·chatgpt·openai·sam altman
hunteritself4 天前
ChatGPT实时语音将于本周向免费用户推出:OpenAI DevDay 2024详细解读
人工智能·gpt·算法·chatgpt·openai·语音识别
AskHarries9 天前
开发提效的工具tabby快速入门
spring boot·后端·openai
五阿哥爱跳舞10 天前
介绍GPT-o1:一系列解决困难问题( science, coding, and math )的推理模型
llm·openai
月十丶10 天前
Claude 的上下文检索功能提升了 RAG 准确率,这会是人工智能革命?
openai·claude
曾小蛙11 天前
【ComfyUI】生成图细节更清晰——Consistency_Decoder
openai·decoder·consistency·一致性解码器
Hello 0 111 天前
MovieLife 电影生活
语言模型·生活·openai·图像识别·文字转语音
营赢盈英12 天前
OpenAI GPT-3 API: What is the difference between davinci and text-davinci-003?
ai·gpt-3·openai·openai api
营赢盈英13 天前
Error when custom data is added to Azure OpenAI Service Deployment
ai·openai·azure·storage account·cognitivesearch