Sora初步介绍

在 2024 年 2 月 16 日,Open AI 宣布推出全新的生成式人工智能模型"Sora"。据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

这意味着,继文本、图像之后,OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑

对于 OpenAI 视频生成模型的出现,业内其实早有预期,但仍有人评价称"比想象中来得更快",亦有人振奋地表示"我们真的看到新工业革命来临"。

Sora 官方网址:openai.com/sora

Sora论文网址:openai.com/research/vi...

目前OpenAI官网上已经更新了48个Sora生成的视频Demo,色彩艳丽,效果逼真。

2024年的真正红利点:文生视频。

原理理解及达到效果

用ChatGPT能力做视频文本对齐,将多个高分辨率视频素材进行降维处理,进行密集训练,最后大力出奇迹。

最终我们只需要一段提示词,就可以生存60s的1080p的视频。

另外,Sora还可以从静态图像生成动画,或者扩展现有视频,从而创建出更多的画面,保持角色和视觉风格的一致性。

现有问题

该模型会混淆提示的空间细节,并且难以模拟复杂场景中的物理现象。

正式发布时间预测

如何使用

截止目前,Sora没有公开测试,也没有内测申请渠道,国内是没有渠道可以去尝试的。

下面信息仅供参考:

各模型对比

能力 Sora 其他
架构 Transformer U
-Net为主
驱动方式 数据 图片
世界理解能力
数字世界模拟 支持 不支持
世界互动能力 支持 不支持
3D运动连贯性
物体一致性
物体持久性/连续性
文本理解 一般
运动控制 其他 提示词+运动控制工具
无缝连接能力 一般
视频到视频编辑 支持 部分
扩展生成视频 前/后
视频时长 60s 2-4s
原生纵横比 支持 不支持
清晰度 1080P 最高4k(Runway)

相同指令下不同视频模型对比

internal-api-drive-stream.feishu.cn/space/api/b...

AI视频玩家盘点

据不完全统计,过去一年来全球AI生成视频类赛道的融资已经超过数十亿美金,其中大部分公司都以种子轮、A轮为主。

今年1月底,A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望,并盘点了市场长超过20个明星产品。

Sora优势

  1. 准确性和多样性

可理解长达135个单词的长提示,准确解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。

  1. 强大的语言理解

利用Dell-E模型的re-captioning技术,生成视觉训练数据的描述性字幕,不及可以提高文本的准确性,还可以提升视频质量。

  1. 以图/视频生成视频

Sora不仅可以接受多样的提示词,还能接受已存在的图像和视频。

  1. 优秀的设备适配性

Sora具备出色的采样能力,从宽屏的1920x1080到竖屏的1080x1920,两者之间的任何视频尺寸都能轻松应对。

  1. 视频扩展功能

作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。

  1. 场景和物体的一致性和连续性

Sora可以生成带有生成带有动态视觉变化的视频,任务和场景元素在三维空间中的移动会显得更加自然。

Sora可能带来的影响

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的"虚拟偶像",此前的二次元人物并没有真正达到"偶像"的级别。

  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。

  3. Sora 可能才是真正的文生视频,此前的文生视频大多只有 2 秒,仅仅是对象的小幅度移动。

  4. OpenAI 继续拉大领先程度,对众多还在进行大模型测试打分 pk 的厂商,构成压力。

  5. 直接的影响是影视行业,特别是特效行业。使用 AI 来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。

  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。

  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用 AI 来代替,可能会有很多视频剪辑师失业。

  8. 对于很多短视频创作者来说,用 AI 来替代繁琐的剪辑工作,可以大幅提高工作效率。

  9. 很多歌手拍摄 MV 都是大成本制作,如果可以用 AI 来生成所需要的 MV 画面,也可以省去很大一部分制作成本。

  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。

相关推荐
hunteritself1 天前
ChatGPT高级语音模式正在向Web网页端推出!
人工智能·gpt·chatgpt·openai·语音识别
Swift社区3 天前
使用 AI 在医疗影像分析中的应用探索
typescript·tensorflow·openai
hunteritself3 天前
ChatGPT Search VS Kimi探索版:AI搜索哪家强?!
人工智能·gpt·chatgpt·openai·xai
Icried5 天前
使用React 实现一个简单的待办事项列表|青训营笔记:方向三
前端·openai
hunteritself7 天前
谷歌Gemini发布iOS版App,live语音聊天免费用!
人工智能·ios·chatgpt·openai·语音识别
OneFlow深度学习框架8 天前
LLM长上下文RAG能力实测:GPT o1 vs Gemini
gpt·语言模型·大模型·openai·gemini·o1
JarodYv9 天前
GPT-5 要来了:抢先了解其创新突破
gpt·openai·生成式ai·gpt-4·gpt-5
hunteritself10 天前
Sam Altman:年底将有重磅更新,但不是GPT-5!
人工智能·gpt·深度学习·chatgpt·openai·语音识别
Code_Artist13 天前
Spring AI: Make Spring Great Again!设计并实现一款智能Chat Bot!
后端·llm·openai
毅航14 天前
从原理到实践,构建属于自己的AI客服机器人
人工智能·后端·openai