Sora 终于发布,但已经不再期待了

12月10日,OpenAI 正式发布了「 Sora 视频生成模型」。回想其在 2024 年初首次亮相时,Sora 被誉为 AI 视频生成领域的里程碑式产品,承载了行业与大众的高度期待。

然而过去半年间, 海螺、可灵、 混元等视频大模型不断涌现。在竞争加剧的情况下,Sora 是否继续带来了惊喜,则充满不确定性。

生成式AI视频的挑战

我们先来回顾一下,当时的 OpenAI 做对了什么,让大家对 Sora 期待如此之高?

在 Sora 出现之前,AI 视频生成技术主要依赖两类模型:「Transformer」 和「扩散模型」。无论是 Meta 的 Make-A-Video、字节跳动的 Magic Video,还是 Runway 的 Gen-2,都采用了扩散模型来训练。

然而,尽管扩散模型生成速度快,却存在稳定性不足的缺点,导致效果不尽如人意。

那么 OpenAI 是如何破解这一难题呢?

面对扩散模型生成速度快但稳定性不足,和 Transformer 模型生成稳定但资源消耗高的矛盾,OpenAI 将两者优势相结合,开创了一种混合架构,即**「基于 Transformer 的扩散模型(DiT)」**。DiT 并非 OpenAI 的首创,但确实是靠 OpenAI 发扬光大。

生成视频新纪元

在 Sora 之前,业界对混合模型虽然已有尝试,但效果不佳,市场反响寥寥无几。然而,Sora 的出现证明了这条路的可行性------只要**「** 投入足够多的数据和资源」,成功便指日可待。

这也解释了为何在短短半年多的时间里,各类文生视频的大模型如雨后春笋般涌现。科技巨头相继推出了海螺、可灵、即梦、 混元等表现相当不错的产品,推动了这一领域的快速发展。

Sora 的创新不仅填补了当时市场的空白,更开辟了一条全新的 「AI 视频生成赛道」

Sora 为视频大模型带来了巨大的想象空间:从电影、短剧到复杂的特效场景制作都将变得更加高效。而这些看似"高端"的应用场景,仅仅是视频生成技术影响力的冰山一角。

Sora 正式版的表现

尽管 Sora 引起了广泛的关注和期待,但其发布后的效果似乎并未完全超越市场上的现有产品。以下截取了一些测评结论:

Bilawal Sidhu 将 Sora 与腾讯混元大模型的效果进行对比,认为混元生成的视频效果更佳。

Deedy 认为Sora在生成体操动作上完成度不高。但这也是所有大模型的通病。

也有很多正面评论,如Jim Fan 认为 Sora 在模拟真实世界上表现出色。Chris 认为 Sora 生成的视频符合物理规律。

Sora 虽然无法完全超越竞品,但在功能上提供了新的可能性。未来,随着技术的不断优化与资源的持续投入,Sora 或许仍能在 AI 视频生成领域找到属于自己的位置。

参考资料

1\] **OpenAI 发布 Sora:** [openai.com/sora/](https://link.juejin.cn?target=https%3A%2F%2Fopenai.com%2Fsora%2F "https://openai.com/sora/") \[2\] **Transformer:** [en.wikipedia.org/wiki/Transf...](https://link.juejin.cn?target=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FTransformer "https://en.wikipedia.org/wiki/Transformer") \[3\] **扩散模型:** [en.wikipedia.org/wiki/Diffus...](https://link.juejin.cn?target=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FDiffusion_model "https://en.wikipedia.org/wiki/Diffusion_model") \[4\] **DiT:** **[arxiv.org/abs/2212.09...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2212.09748 "https://arxiv.org/abs/2212.09748")** \[5\] **Bilawal Sidhu 的 twitter 原帖**: [x.com/bilawalsidh...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fbilawalsidhu%2Fstatus%2F1866510079836786974 "https://x.com/bilawalsidhu/status/1866510079836786974") \[6\] **Deedy 的 twitter 原帖:** [x.com/i/bookmarks...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fi%2Fbookmarks%3Fpost_id%3D1866509455896260813 "https://x.com/i/bookmarks?post_id=1866509455896260813") \[7\] **Jim Fan 的 twitter 原帖:** [x.com/i/bookmarks...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fi%2Fbookmarks%3Fpost_id%3D1758210245799920123 "https://x.com/i/bookmarks?post_id=1758210245799920123") \[8\] **Chris 的 twitter 原帖:** [x.com/chrisoffner...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fchrisoffner3d%2Fstatus%2F1866454313502925109 "https://x.com/chrisoffner3d/status/1866454313502925109") ## 关于我 持续更新 AIGC 最新行业动态,若希望更好的阅读体验,可移步微信公众号:张XX的AI小站 ![Snipaste_2024-12-03_19-54-56.png](https://p6-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/2308e5dee8cf4d1e9f918c4ff7a1d829~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAg5bygWFg=:q75.awebp)

相关推荐
uhakadotcom10 小时前
快速开始使用 n8n
后端·面试·github
uhakadotcom11 小时前
React与Next.js:基础知识及应用场景
前端·面试·github
阿坡RPA12 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户277844910499312 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心12 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI14 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
uhakadotcom15 小时前
MQTT入门:轻量级物联网通信协议
后端·面试·github
凯子坚持 c15 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得20515 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清16 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件