随着最近Sora的发布,不得不说Altman是一个很懂营销的人,Sora有很大的发展空间,也很有可能改变一部分行业的现状。根据其他大佬的内容总结修改了下:
一、基本介绍
在 2024 年 2月 16 日,Open AI 宣布推出全新的生成式人工智能模型"Sora"。据了解,通过文本指令,Sora 以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
这意味着,继文本、图像之后,OpenAI 将其先进的 A 技术拓展到了视频领域。OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑。
对于 OpenAI 视频生成模型的出现,业内其实早有预期,但仍有人评价称"比想象中来得更快",亦有人振奋地表示"我们真的看到新工业革命来临"。
Sora 的 60 秒视频基本上展示了它解决了以下3 个 AI 视频技术难题:
(1)真实物理世界的逼真模拟 (2)角色的一致性 (3)长镜头的稳定性
Sora官方网址:
添加图片注释,不超过 140 字(可选)
官方Youtobe 介绍视频: Introducing Sora --- OpenAI's text-to-video model - YouTube
Sora 论文网址: Video generation models as world simulators (openai.com)
目前 OpenAI 官网上已经更新了 48 个 Sora 生成的视频 demo,色彩艳丽,效果逼真。
官方网站:Sora video
博主解读
全网最详细Sora解析,OpenAI又一王炸!【Git源宝】哔哩哔哩bilibili
Sora来了,我们离AI模拟世界还有多远【详细分析解读】
Sora怎么申请
渠道一(官方)
OpenAl 的官方论坛,据消息透露加入论坛有机会获得内测资格
添加图片注释,不超过 140 字(可选)
渠道二(官方)
Red Team 开始公开招募了,要求比较高。Sam 之前说过,如果进入到红队,可以有 Sora 的内测机会。
OpenAI Red Teaming Network application
添加图片注释,不超过 140 字(可选)
Sora怎么使用
(PS:目前根据文生图模型 DALL·E案例,一定是先给 ChatGPTPlus 付费用户使用,需要注册或者升级 GPT PIus 可以看这个教程:5分钟带你搞定chatGPT4.0 保姆级升级教程)
使用Sora前的准备工作
在开始之前,确保您已经拥有了OpenAl账目,并获得了Sora的访问权限。准备好您想要转化成视频的文本描述,记住越详细越好。
1.Sora使用步骤一:文本描述
登录您的OpenAl账户,找到Sora的使用界面。在指定区域输入您的文本描述,可以是一个故事概述、场景描述或是具体的动作指令。
2.Sora使用步骤二:生成视频
完成文本描述和自定义设置后,点击"生成视频"按钮。Sora将开始处理您的请求,这可能需要几分钟时间。
完成后,您可以预览生成的视频。
需要注意的是,截止2024年2月18日,0penAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。
模型效果对比
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
Sora的六大优势
《每日经济新闻》记者经过对官方技术报告的梳理,总结出了 Sora 的6大优势:
(1)准确性和多样性:Sora 的显著特征之一是能够准确解释长达 135 个单词的长提示。它可以准确地解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。这一新工具可将简短的文本描述转化成长达1 分钟的高清视频。它涵盖了广泛的主题,从人物和动物到郁郁葱葱的风景、城市场景、花园,甚至是水下的纽约市,可根据用户的要求提供多样化的内容。
(2)强大的语言理解:OpenAI 利用 Dall-E 模型的 re-captioning(重述要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。此外,与 DALL·E3类似,OpenAI 还利用 GPT 技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这使 Sora 能够精确地按照用户提示生成高质量的视频。
(3)以图/视频生成视频:Sora 除了可以将文本转化为视频,还能接受其他类型的输入提示,如已经存在的图像或视频。这使 Sora 能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。0penAI 在报告中展示了基于 DALL·E2和 DALL·E3 的图像生成的 demo 视频。这不仅证明了 Sora 的强大功能,还展示了它在图像和视频编辑领域的无限潜力。
(4)视频扩展功能:由于可接受多样化的输入提示,用户可以根据图像创建视频或补充现有视频。作为基于Transformer 的扩散模型,Sora 还能沿时间线向前或向后扩展视频。从 OpenAI 提供的4个 demo 视频看,都从同一个视频片段开始,向时间线的过去进行延伸。因此,尽管开头不同,但视频结局都是相同的。
(5)优异的设备适配性:Sora 具备出色的采样能力,从宽屏的 1920x1080p 到竖屏的 1080x1920,两者之间的任何视频尺寸都能轻松应对。这意味着 Sora 能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前,Sora 还能以小尺寸迅速创建内容原型。
(6)场景和物体的一致性和连续性:Sora 可以生成带有动态视角变化的视频,人物和场景元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题,现有模型的一个问题是,当物体离开视野时,它们可能无法对其进行追踪。而通过一次性提供多帧预测,Sora 可确保画面主体即使暂时离开视野也能保持不变。
Sora可能带来的影响
如果 Sora 能够真正意义上实现文生视频,可能会带来哪些影响呢?
1、没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的"虚拟偶像",此前的二次元人物并没有真正达到"偶像"的级别。
2、利好编剧行业,剧本、文本创作力成为核心竞争力。
3、Sora 可能才是真正的文生视频,此前的文生视频大多只有 2 秒,仅仅是对象的小幅度移动。
4、0penAI 继续拉大领先程度,对众多还在进行大模型测试打分 pk 的厂商,构成压力。
5、直接的影响是影视行业,特别是特效行业。使用 AI 来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
6、摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
7、短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用 AI来代替,可能会有很多视频剪辑师失业。
8、对于很多短视频创作者来说,用 AI 来替代繁琐的剪辑工作,可以大幅提高工作效率。
9、很多歌手拍摄 MV 都是大成本制作,如果可以用 AI 来生成所需要的 MV 画面,也可以省去很大一部分制作成本
10、另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪,
不过,从 Sora 官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。
在 Sora 官网,OpenAI 表示,Sora 是能够理解和模拟现实世界的模型的基础,OpenAI 相信这一能力将是实现AGI 的重要里程碑。
至于 Sora 文生视频到底能带来多大影响,会不会翻车,还需要"让子弹飞一会儿"。
添加图片注释,不超过 140 字(可选)
二、技术拆解
腾讯科技拆解文
OpenAI 王炸模型引爆科技圈,我们第一时间深读了官方技术报告
阿里巴巴分析文
复刻Sora有多难?一张图带你读懂Sora的技术路径 (qq.com)
素人笔记
参考论文
三、名人观点
360董事长周鸿祎
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
特斯拉CEO 马斯克
添加图片注释,不超过 140 字(可选)
Runway 联合创始人兼 CEO Cristóbal Valenzuela
感慨后浪拍前浪,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。
添加图片注释,不超过 140 字(可选)
出门问问CEO 李志飞
添加图片注释,不超过 140 字(可选)
前阿里副总裁贾杨清
添加图片注释,不超过 140 字(可选)
四、相关报道
商业博主刘润
刘润:OpenAI 全新发布的 Sora,到底意味着什么?)
AI 博主卡兹克
OpenAI全新发布文生视频模型Sora - 现实,不存在了 (qq.com)
量子位
效果炸裂!0penAI 首个视频生成模型发布,1 分钟流畅高清,网友:整个行业 RIP
钛媒体
新智元
OpenAI首个AI视频模型炸裂登场,彻底端掉行业饭碗!60秒一镜到底惊人,世界模型真来了?
清华大学
OpenAI发布文生视频模型Sora,AIGC视频时代正加速到来