Sora 终于发布,但已经不再期待了

12月10日,OpenAI 正式发布了「 Sora 视频生成模型」。回想其在 2024 年初首次亮相时,Sora 被誉为 AI 视频生成领域的里程碑式产品,承载了行业与大众的高度期待。

然而过去半年间, 海螺、可灵、 混元等视频大模型不断涌现。在竞争加剧的情况下,Sora 是否继续带来了惊喜,则充满不确定性。

生成式AI视频的挑战

我们先来回顾一下,当时的 OpenAI 做对了什么,让大家对 Sora 期待如此之高?

在 Sora 出现之前,AI 视频生成技术主要依赖两类模型:「Transformer」 和「扩散模型」。无论是 Meta 的 Make-A-Video、字节跳动的 Magic Video,还是 Runway 的 Gen-2,都采用了扩散模型来训练。

然而,尽管扩散模型生成速度快,却存在稳定性不足的缺点,导致效果不尽如人意。

那么 OpenAI 是如何破解这一难题呢?

面对扩散模型生成速度快但稳定性不足,和 Transformer 模型生成稳定但资源消耗高的矛盾,OpenAI 将两者优势相结合,开创了一种混合架构,即**「基于 Transformer 的扩散模型(DiT)」**。DiT 并非 OpenAI 的首创,但确实是靠 OpenAI 发扬光大。

生成视频新纪元

在 Sora 之前,业界对混合模型虽然已有尝试,但效果不佳,市场反响寥寥无几。然而,Sora 的出现证明了这条路的可行性------只要**「** 投入足够多的数据和资源」,成功便指日可待。

这也解释了为何在短短半年多的时间里,各类文生视频的大模型如雨后春笋般涌现。科技巨头相继推出了海螺、可灵、即梦、 混元等表现相当不错的产品,推动了这一领域的快速发展。

Sora 的创新不仅填补了当时市场的空白,更开辟了一条全新的 「AI 视频生成赛道」

Sora 为视频大模型带来了巨大的想象空间:从电影、短剧到复杂的特效场景制作都将变得更加高效。而这些看似"高端"的应用场景,仅仅是视频生成技术影响力的冰山一角。

Sora 正式版的表现

尽管 Sora 引起了广泛的关注和期待,但其发布后的效果似乎并未完全超越市场上的现有产品。以下截取了一些测评结论:

Bilawal Sidhu 将 Sora 与腾讯混元大模型的效果进行对比,认为混元生成的视频效果更佳。

Deedy 认为Sora在生成体操动作上完成度不高。但这也是所有大模型的通病。

也有很多正面评论,如Jim Fan 认为 Sora 在模拟真实世界上表现出色。Chris 认为 Sora 生成的视频符合物理规律。

Sora 虽然无法完全超越竞品,但在功能上提供了新的可能性。未来,随着技术的不断优化与资源的持续投入,Sora 或许仍能在 AI 视频生成领域找到属于自己的位置。

参考资料

[1] OpenAI 发布 Sora:

openai.com/sora/

[2] Transformer:

en.wikipedia.org/wiki/Transf...

[3] 扩散模型:

en.wikipedia.org/wiki/Diffus...

[4] DiT: arxiv.org/abs/2212.09...

[5] Bilawal Sidhu 的 twitter 原帖

x.com/bilawalsidh...

[6] Deedy 的 twitter 原帖:

x.com/i/bookmarks...

[7] Jim Fan 的 twitter 原帖:

x.com/i/bookmarks...

[8] Chris 的 twitter 原帖:

x.com/chrisoffner...

关于我

持续更新 AIGC 最新行业动态,若希望更好的阅读体验,可移步微信公众号:张XX的AI小站

相关推荐
AdSet聚合广告10 分钟前
APP、小程序对接聚合广告平台,有哪些广告变现策略?
大数据·人工智能·microsoft·小程序·个人开发
云游38 分钟前
国产GPU中,VLLM0.5.0发布Qwen2.5-14B-Instruct-GPTQ-Int8模型,请求返回结果乱码
人工智能·vllm、python、dcu
阿里云大数据AI技术42 分钟前
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
人工智能·云计算
小熊bdg1 小时前
3D 生成重建029-Turbo3D一个让3D生成大模型更快的思路
人工智能·3d·aigc
gz7seven1 小时前
将分类数据划分为训练集、测试集与验证集
人工智能·算法·分类·数据划分·训练集·验证集·测试集
葡萄爱1 小时前
机器学习 LightGBM -GBDT 多分类 点击率预测 检索排序
人工智能·机器学习·分类·数据挖掘·机器人·lightgbm·gbdt
IT古董1 小时前
【机器学习】机器学习的基本分类-无监督学习-主成分分析(PCA:Principal Component Analysis)
人工智能·学习·算法·机器学习·分类
肉包之1 小时前
pythonOpenCV篇:0基础带你python入门之常用函数
人工智能·python·opencv·计算机视觉·目标跟踪
康谋自动驾驶2 小时前
康谋方案 | 多源相机数据采集与算法集成测试方案
人工智能·科技·数据分析·自动驾驶·汽车
小嗷犬2 小时前
【论文笔记】VisionZip: Longer is Better but Not Necessary in Vision Language Models
论文阅读·人工智能·语言模型·大模型·多模态