我花3天了解了下 Sora,这里给大家汇报一下

大家好,我块马。

以前从事区块链应用开发,现利用业余时间自我学习了解新知识,感兴趣的同学可以常来看看。

今天聊下 Sora,目前文生视频的领头羊。我大概花了3天时间了解了下 Sora,这里给大家简单地做个汇报。为什么说 Sora 是领头羊,因为它展现的细节丰富性和逻辑连贯性是迄今AI领域未曾见过的。

由于视频要去西瓜审核,所以先放一些截图,以下是一些官网的示例视频的截图

提示词:A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

提示词:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

视频中不仅有复杂的摄影技巧、多个角色、鲜明的情感表现,还有精确的物理效果。因为它支持 "60s超长长度"、"单视频多角度镜头"和"世界模型"! 一时间在全网爆火,让无数网友惊呼:"现实,不存在了。 "

即便视频主题暂时移出画面,Sora生成的视频也能保持内容上的一致性。AI学会了现实世界的物理规律,因此视频中的对象行为真实可信。此外,Sora还采用了变换器架构(transformer architecture),使其在生成模型的可扩展性方面超越以往。

Sora 于其他模型对比(截止3月16日)

特性/能力 SORA模型 其他模型
视频时长 60秒 2~4秒
世界理解能力 可理解世界知识
数字世界模拟 支持 不支持
物体一致性
物体持久性/连续性
架构 Transformer U-Net为主
文本理解 一般
清晰度 1080P 最高4K
运动控制 提示词 提示词+运动控制工具
扩展生成视频 前/后
驱动方式 数据 图片
视频到视频编辑 支持 不支持
世界互动能力 支持 部分支持
原生纵横比 支持 不支持
无缝连接能力
3D运动连贯性

如果说2023年,文本领域、图片领域都已经被AI攻占,那么现在2024年开年,AI视频领域,在OpenAI的Sora攻势下,也被彻底击破,过不了多久,AI 就直接可以读取一部小说生成电影了,百花齐放的年代就会到来。要知道,2023年的AI视频才只能生成10秒左右,但现在已经可以实现1-2分钟了,接下来几年内大概率会出现几分钟,甚至几十分钟的AI视频。整个视频制作行业会在今年受到AI的颠覆性冲击。新视频时代正式到来!

根据鸿祎大叔的观点:Sora 必将是AI时代的革命性工具,对于视频创作者来说,做个人微电影和爆款短视频已经不再是一件很困难的事情。对于老师以及父母来说,可以利用AI轻松地将枯燥的知识转变为更加有趣的视频来教导学生以及孩子。对于导演以及影视行业者,制作电影的成本也将会大幅度降低......总之,相比以往只能生成几秒而且还一塌糊涂的AI视频,现在AI视频的用途更加丰富了,前途更加宽广了,质量也更加高了,制作的难度也更加低了!

四款 AI 文生视频效果对比

更多官方提示词整理汇总

更多官方提供的提示词和视频已经给大家整理好了

Sora 优先体验资格申请入口及解读

点击前往(需要魔法) -> OpenAI Red Teaming Network application

相关论文文档整理

此外,我还整理了相关国外关于 Sora 的论文数篇,供大家参考

最后,我还在努力寻找和摸索更多的提示词技巧及相关教程...

相关推荐
黎燃13 分钟前
AI驱动的供应链管理:需求预测实战指南
人工智能
天波信息技术分享21 分钟前
AI云电脑盒子技术分析——从“盒子”到“算力云边缘节点”的跃迁
人工智能·电脑
CoderJia程序员甲35 分钟前
GitHub 热榜项目 - 日榜(2025-08-16)
人工智能·ai·开源·github
KirkLin35 分钟前
Kirk:练习时长两年半的AI Coding经验
人工智能·程序员·全栈
mit6.82441 分钟前
[1Prompt1Story] 注意力机制增强 IPCA | 去噪神经网络 UNet | U型架构分步去噪
人工智能·深度学习·神经网络
挽淚1 小时前
(小白向)什么是Prompt,RAG,Agent,Function Calling和MCP ?
人工智能·程序员
Jina AI1 小时前
回归C++: 在GGUF上构建高效的向量模型
人工智能·算法·机器学习·数据挖掘·回归
科大饭桶2 小时前
昇腾AI自学Day2-- 深度学习基础工具与数学
人工智能·pytorch·python·深度学习·numpy
什么都想学的阿超2 小时前
【大语言模型 02】多头注意力深度剖析:为什么需要多个头
人工智能·语言模型·自然语言处理
努力还债的学术吗喽2 小时前
2021 IEEE【论文精读】用GAN让音频隐写术骗过AI检测器 - 对抗深度学习的音频信息隐藏
人工智能·深度学习·生成对抗网络·密码学·音频·gan·隐写