12月10日,OpenAI 正式发布了「 Sora 视频生成模型」。回想其在 2024 年初首次亮相时,Sora 被誉为 AI 视频生成领域的里程碑式产品,承载了行业与大众的高度期待。
然而过去半年间, 海螺、可灵、 混元等视频大模型不断涌现。在竞争加剧的情况下,Sora 是否继续带来了惊喜,则充满不确定性。
生成式AI视频的挑战
我们先来回顾一下,当时的 OpenAI 做对了什么,让大家对 Sora 期待如此之高?
在 Sora 出现之前,AI 视频生成技术主要依赖两类模型:「Transformer」 和「扩散模型」。无论是 Meta 的 Make-A-Video、字节跳动的 Magic Video,还是 Runway 的 Gen-2,都采用了扩散模型来训练。
然而,尽管扩散模型生成速度快,却存在稳定性不足的缺点,导致效果不尽如人意。
那么 OpenAI 是如何破解这一难题呢?
面对扩散模型生成速度快但稳定性不足,和 Transformer 模型生成稳定但资源消耗高的矛盾,OpenAI 将两者优势相结合,开创了一种混合架构,即**「基于 Transformer 的扩散模型(DiT)」**。DiT 并非 OpenAI 的首创,但确实是靠 OpenAI 发扬光大。
生成视频新纪元
在 Sora 之前,业界对混合模型虽然已有尝试,但效果不佳,市场反响寥寥无几。然而,Sora 的出现证明了这条路的可行性------只要**「** 投入足够多的数据和资源」,成功便指日可待。
这也解释了为何在短短半年多的时间里,各类文生视频的大模型如雨后春笋般涌现。科技巨头相继推出了海螺、可灵、即梦、 混元等表现相当不错的产品,推动了这一领域的快速发展。
Sora 的创新不仅填补了当时市场的空白,更开辟了一条全新的 「AI 视频生成赛道」。
Sora 为视频大模型带来了巨大的想象空间:从电影、短剧到复杂的特效场景制作都将变得更加高效。而这些看似"高端"的应用场景,仅仅是视频生成技术影响力的冰山一角。
Sora 正式版的表现
尽管 Sora 引起了广泛的关注和期待,但其发布后的效果似乎并未完全超越市场上的现有产品。以下截取了一些测评结论:
Bilawal Sidhu 将 Sora 与腾讯混元大模型的效果进行对比,认为混元生成的视频效果更佳。
Deedy 认为Sora在生成体操动作上完成度不高。但这也是所有大模型的通病。
也有很多正面评论,如Jim Fan 认为 Sora 在模拟真实世界上表现出色。Chris 认为 Sora 生成的视频符合物理规律。
Sora 虽然无法完全超越竞品,但在功能上提供了新的可能性。未来,随着技术的不断优化与资源的持续投入,Sora 或许仍能在 AI 视频生成领域找到属于自己的位置。
参考资料
[1] OpenAI 发布 Sora:
[2] Transformer:
en.wikipedia.org/wiki/Transf...
[3] 扩散模型:
en.wikipedia.org/wiki/Diffus...
[4] DiT: arxiv.org/abs/2212.09...
[5] Bilawal Sidhu 的 twitter 原帖:
[6] Deedy 的 twitter 原帖:
[7] Jim Fan 的 twitter 原帖:
[8] Chris 的 twitter 原帖:
关于我
持续更新 AIGC 最新行业动态,若希望更好的阅读体验,可移步微信公众号:张XX的AI小站