Sora初步介绍

在 2024 年 2 月 16 日,Open AI 宣布推出全新的生成式人工智能模型"Sora"。据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

这意味着,继文本、图像之后,OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑

对于 OpenAI 视频生成模型的出现,业内其实早有预期,但仍有人评价称"比想象中来得更快",亦有人振奋地表示"我们真的看到新工业革命来临"。

Sora 官方网址:openai.com/sora

Sora论文网址:openai.com/research/vi...

目前OpenAI官网上已经更新了48个Sora生成的视频Demo,色彩艳丽,效果逼真。

2024年的真正红利点:文生视频。

原理理解及达到效果

用ChatGPT能力做视频文本对齐,将多个高分辨率视频素材进行降维处理,进行密集训练,最后大力出奇迹。

最终我们只需要一段提示词,就可以生存60s的1080p的视频。

另外,Sora还可以从静态图像生成动画,或者扩展现有视频,从而创建出更多的画面,保持角色和视觉风格的一致性。

现有问题

该模型会混淆提示的空间细节,并且难以模拟复杂场景中的物理现象。

正式发布时间预测

如何使用

截止目前,Sora没有公开测试,也没有内测申请渠道,国内是没有渠道可以去尝试的。

下面信息仅供参考:

各模型对比

能力 Sora 其他
架构 Transformer U
-Net为主
驱动方式 数据 图片
世界理解能力
数字世界模拟 支持 不支持
世界互动能力 支持 不支持
3D运动连贯性
物体一致性
物体持久性/连续性
文本理解 一般
运动控制 其他 提示词+运动控制工具
无缝连接能力 一般
视频到视频编辑 支持 部分
扩展生成视频 前/后
视频时长 60s 2-4s
原生纵横比 支持 不支持
清晰度 1080P 最高4k(Runway)

相同指令下不同视频模型对比

internal-api-drive-stream.feishu.cn/space/api/b...

AI视频玩家盘点

据不完全统计,过去一年来全球AI生成视频类赛道的融资已经超过数十亿美金,其中大部分公司都以种子轮、A轮为主。

今年1月底,A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望,并盘点了市场长超过20个明星产品。

Sora优势

  1. 准确性和多样性

可理解长达135个单词的长提示,准确解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。

  1. 强大的语言理解

利用Dell-E模型的re-captioning技术,生成视觉训练数据的描述性字幕,不及可以提高文本的准确性,还可以提升视频质量。

  1. 以图/视频生成视频

Sora不仅可以接受多样的提示词,还能接受已存在的图像和视频。

  1. 优秀的设备适配性

Sora具备出色的采样能力,从宽屏的1920x1080到竖屏的1080x1920,两者之间的任何视频尺寸都能轻松应对。

  1. 视频扩展功能

作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。

  1. 场景和物体的一致性和连续性

Sora可以生成带有生成带有动态视觉变化的视频,任务和场景元素在三维空间中的移动会显得更加自然。

Sora可能带来的影响

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的"虚拟偶像",此前的二次元人物并没有真正达到"偶像"的级别。

  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。

  3. Sora 可能才是真正的文生视频,此前的文生视频大多只有 2 秒,仅仅是对象的小幅度移动。

  4. OpenAI 继续拉大领先程度,对众多还在进行大模型测试打分 pk 的厂商,构成压力。

  5. 直接的影响是影视行业,特别是特效行业。使用 AI 来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。

  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。

  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用 AI 来代替,可能会有很多视频剪辑师失业。

  8. 对于很多短视频创作者来说,用 AI 来替代繁琐的剪辑工作,可以大幅提高工作效率。

  9. 很多歌手拍摄 MV 都是大成本制作,如果可以用 AI 来生成所需要的 MV 画面,也可以省去很大一部分制作成本。

  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。

相关推荐
强哥之神2 小时前
Nexa AI发布OmniAudio-2.6B:一款快速的音频语言模型,专为边缘部署设计
人工智能·深度学习·机器学习·语言模型·自然语言处理·音视频·openai
fanstuck18 小时前
Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写
人工智能·数据挖掘·openai
mortimer20 小时前
实现一个用于cosoyVoice2的接口并兼容OpenAI TTS
openai·阿里巴巴
that's boy1 天前
突围边缘:OpenAI开源实时嵌入式API,AI触角延伸至微观世界
人工智能·gpt·chatgpt·开源·openai·midjourney
hunteritself2 天前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
新智元2 天前
LeCun 八年前神预言,大模型路线再颠覆?OpenAI 宣告:强化学习取得稳定性突破
人工智能·openai
程序员小灰3 天前
OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍
人工智能·aigc·openai
that's boy4 天前
ChatGPT Search开放:实时多模态搜索新体验
人工智能·gpt·chatgpt·openai·midjourney
blzlh7 天前
用Prompt构建AI电商客服:终于挤出时间摸鱼了!!
前端·javascript·openai
yanlele10 天前
企业级 AI Coding 已经来临, 目前其发展可能已经超越想象,对此我的一些思考
前端·后端·openai