Sora初步介绍

在 2024 年 2 月 16 日,Open AI 宣布推出全新的生成式人工智能模型"Sora"。据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

这意味着,继文本、图像之后,OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑

对于 OpenAI 视频生成模型的出现,业内其实早有预期,但仍有人评价称"比想象中来得更快",亦有人振奋地表示"我们真的看到新工业革命来临"。

Sora 官方网址:openai.com/sora

Sora论文网址:openai.com/research/vi...

目前OpenAI官网上已经更新了48个Sora生成的视频Demo,色彩艳丽,效果逼真。

2024年的真正红利点:文生视频。

原理理解及达到效果

用ChatGPT能力做视频文本对齐,将多个高分辨率视频素材进行降维处理,进行密集训练,最后大力出奇迹。

最终我们只需要一段提示词,就可以生存60s的1080p的视频。

另外,Sora还可以从静态图像生成动画,或者扩展现有视频,从而创建出更多的画面,保持角色和视觉风格的一致性。

现有问题

该模型会混淆提示的空间细节,并且难以模拟复杂场景中的物理现象。

正式发布时间预测

如何使用

截止目前,Sora没有公开测试,也没有内测申请渠道,国内是没有渠道可以去尝试的。

下面信息仅供参考:

各模型对比

能力 Sora 其他
架构 Transformer U
-Net为主
驱动方式 数据 图片
世界理解能力
数字世界模拟 支持 不支持
世界互动能力 支持 不支持
3D运动连贯性
物体一致性
物体持久性/连续性
文本理解 一般
运动控制 其他 提示词+运动控制工具
无缝连接能力 一般
视频到视频编辑 支持 部分
扩展生成视频 前/后
视频时长 60s 2-4s
原生纵横比 支持 不支持
清晰度 1080P 最高4k(Runway)

相同指令下不同视频模型对比

internal-api-drive-stream.feishu.cn/space/api/b...

AI视频玩家盘点

据不完全统计,过去一年来全球AI生成视频类赛道的融资已经超过数十亿美金,其中大部分公司都以种子轮、A轮为主。

今年1月底,A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望,并盘点了市场长超过20个明星产品。

Sora优势

  1. 准确性和多样性

可理解长达135个单词的长提示,准确解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。

  1. 强大的语言理解

利用Dell-E模型的re-captioning技术,生成视觉训练数据的描述性字幕,不及可以提高文本的准确性,还可以提升视频质量。

  1. 以图/视频生成视频

Sora不仅可以接受多样的提示词,还能接受已存在的图像和视频。

  1. 优秀的设备适配性

Sora具备出色的采样能力,从宽屏的1920x1080到竖屏的1080x1920,两者之间的任何视频尺寸都能轻松应对。

  1. 视频扩展功能

作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。

  1. 场景和物体的一致性和连续性

Sora可以生成带有生成带有动态视觉变化的视频,任务和场景元素在三维空间中的移动会显得更加自然。

Sora可能带来的影响

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的"虚拟偶像",此前的二次元人物并没有真正达到"偶像"的级别。

  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。

  3. Sora 可能才是真正的文生视频,此前的文生视频大多只有 2 秒,仅仅是对象的小幅度移动。

  4. OpenAI 继续拉大领先程度,对众多还在进行大模型测试打分 pk 的厂商,构成压力。

  5. 直接的影响是影视行业,特别是特效行业。使用 AI 来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。

  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。

  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用 AI 来代替,可能会有很多视频剪辑师失业。

  8. 对于很多短视频创作者来说,用 AI 来替代繁琐的剪辑工作,可以大幅提高工作效率。

  9. 很多歌手拍摄 MV 都是大成本制作,如果可以用 AI 来生成所需要的 MV 画面,也可以省去很大一部分制作成本。

  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。

相关推荐
机器之心8 小时前
刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力
人工智能·openai
后端小肥肠12 小时前
又一AI爆款神器!n8n一键生成10w+治愈老奶奶图文到本地磁盘,公号/小红书/抖音都能用!
aigc·openai·agent
沐怡旸15 小时前
【提示词】【AI智能体】业务文档问答智能体如何精心设计提示词?
openai
新智元15 小时前
1300 亿美元,买断 AGI 未来?OpenAI 完成 5 千亿股改,奥特曼 0 股权
人工智能·openai
新智元16 小时前
英伟达,全球首个 5 万亿美元公司诞生!「GPU 帝国」超日本德国 GDP
人工智能·openai
机器之心16 小时前
牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练
人工智能·openai
迦蓝叶1 天前
JAiRouter v1.1.0 发布:把“API 调没调通”从 10 分钟压缩到 10 秒
java·人工智能·网关·openai·api·协议归一
机器之心1 天前
吴恩达关注的Ling-1T背后,蚂蚁Ling 2.0技术报告解密万亿模型开源配方
人工智能·openai
量子位1 天前
刚刚,OpenAI股改完成,非营利主体更名
openai
新智元1 天前
「美队」老黄深夜扔出地表最强 GPU!算力百倍狂飙,下次改演雷神
人工智能·openai