OpenAI的Sora深度解析

大家好,我是鹤涵。一个专注于AI+编程的架构师。全国最大的AI付费社群的合伙人以及大模型航海教练。AI时代,我们一起成长。

Sora是什么

三个词总结 "60s超长长度"、"单视频多角度镜头","世界模型"

60s超长长度: pika和runway还只能生成4s视频,这60s直接拉开了差距。而且动作连续,还有一定的艺术性,没有生硬的感觉。

单视频多角度镜头: 在60s的视频内,可以在保持主角色不变的高度一致性的同时,还生成多个不同角度的分镜。

世界模型: Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上持续添加新的笔触,或者一个人吃汉堡时留下咬痕。这个就厉害了,基于虚幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的。

生成效果参考我上一篇文章:mp.weixin.qq.com/s/N8j7kWUzg...

之前刚用pika和runway生成红包封面的视频,动作幅度特别慢,这次Sora来了直接完爆。

Sora解决什么问题

为什么这一次Sora得到全世界这么多关注?

1.因为技术上遥遥领先

他跟之前的runway和pika都不是一个物种,Sora是跟ChatGPT一样是有理解能力的,它可以感知真实的物理世界和自然语言

2.大幅度降低了短视频制作的成本

只需一个简单的提示词,就能生成一段制作精良的60秒视频。

还支持使用图片或视频片段进行扩展,生成全新的视频。

同时也支持将两个视频合并整合成一个新的视频。

原先汽车广告视频要花费大量的人力物力,是不是可以AI生成了?电影宣传片是不是也可以?短视频和短片本身就短那就更没问题了吧?

但是需要创意和价值观的电影一时半会还不能被替代。因为需要好的估时剧本,好的导演,好的演员,大家配合才能演绎出一个经典的电影。

3.生成4K图片

Sora 还能够生成图像,分辨率高达 2048x2048。除了Midjourney和Dall-E又有了个新的选择。

Sora技术原理

Sora的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型(Diffusion Transformer)

它能够通过从一开始看似静态噪声的视频出发,通过许多步骤逐步消除噪声,最终生成视频。

Sora 不仅可以一次性生成完整的视频,还能扩展已生成的视频,使其更加长久。通过让模型能够预见多帧内容,我们成功克服了确保视频主体即便暂时消失也能保持一致性的难题。

Sora 借鉴了 GPT 模型的成功,采用了 Transformer 架构,实现了前所未有的扩展性能。

我们把视频和图像分解为小的数据单元------补丁,每个补丁相当于 GPT 中的一个词语。通过统一数据的表达方式,我们得以在更广泛的视觉数据上训练扩散 Transformer,这些数据覆盖了不同的时长、分辨率和画面比例。

Sora 在 DALL·E 和 GPT 的研究基础上进一步发展。它利用了 DALL·E 3 的重新标注技术,为视觉训练数据生成高度描述性的说明文字。结果是,模型能够更加忠实地根据用户的文本指示生成视频。

除了能够仅凭文本指令生成视频外,Sora 还能够将现有的静态图像转化为视频,精确地动画化图像内容,并注意到细小的细节。模型也能够扩展现有视频或补全缺失帧。更多详情请参阅我们的技术报告。

Sora 为理解和模拟现实世界的模型奠 定了基础,这是实现人工通用智能(AGI)的重要里程碑。

官方论文:《Video generation models as world simulators》

上面只列了一些重点,感兴趣的小伙伴可以阅读原文。

我们普通人该怎么做

1.纯通用AI技术的创业很危险。因为通用的技术大厂都会做,一旦发布对创业公司的打击是毁灭性的。比如这次的Sora对刚融资的pika冲击很大。据说投资人从睡不安稳到直接睡不着了😄

2.AI+垂直行业机会很大。深挖一个业务方向,做一里面宽一万米深的事,大厂不会做具体的一个细分小赛道,但是抓住一个点对于超级个体也能活得很好了。比如Sora+小说推文

3.做套壳Sora网站。类似与之前套壳GPT-4,Midjourney,GPTs。

4.Sora账号的售卖,充值,拼车等等。类似于之前代充ChatGPT Plus

5.用Sora做短视频矩阵。早就是优势,早一些用上强力的工具就能在短视频网站上抢占生态位

6.知识付费。信息差本身就是价值,可以做Sora的课程进行售卖

几点思考

1.想要得到深度的思考就是「到信息的源头去」。消化过的知识虽然信息密度大,更容易理解,但是多多少少都会损失一些信息

2.苹果的Vision Pro配合上Sora未来会是什么样?现实不存在了,元宇宙真的要来了!

3.视频的信息密度远大于文字,而Sora是可以像人一样理解视频的。直接给Sora投喂所有视频网站上的视频,摄像头的数据等一切能拿到的视频数据,AGI可能在一两年就实现了

4.我们以为国内已经达到GPT-3.5的水平了,还有一年半就能追上GPT-4了。这下可好,放出了Sora马上让咱们感受到差距,据说OpenAI还有很多大招憋着没放,比如GPT-5。

5.有规律的重复的工作全会被AI替代,我们小孩的教育不能再应试教育了,保护孩子的创造力,人类的创意值万金。

6.变化飞速的世界抓住不变的,所有需求归根结底都是人性。

联系我

添加微信hehan2048回复「加群」,拉你入AI交流群

相关推荐
昨日之日200627 分钟前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_29 分钟前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover31 分钟前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川1 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃3 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
孙同学要努力5 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20215 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧37 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽7 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_7 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习