开创视频新纪元:揭秘OpenAI Sora的魔力

开创视频新纪元:揭秘OpenAI Sora的魔力

theme: serene-rose

假如您也和我一样,在准备春招。欢迎加我微信shunwuyu,这里有几十位一心去大厂的友友可以相互鼓励,分享信息,模拟面试,共读源码,齐刷算法,手撕面经。来吧,友友们!

前言

Sora是16号凌晨发布的,某乎上贩卖教程的文章16号中午出的,这Sora到底有多香?今天我们来聊聊OpenAI的视频模型:Sora。

正文

自打GPT 火了之后人们就对GPT能干什么充满好奇,今天扔段代码,明天甩两个数学题过去,后天又让人家出个旅游计划,在这些方面GPT无疑将大部分任务都做到了让人较为满意的地步,除了视频方面,这款视频AI大模型广受关注主要原因是过去AI生成的视频但要么画面瑕疵多,要么就是时长短得厉害,在Sora你根本找不到一款这样又长又好的产品,我个人认为Sora能说是吊打其他模型主要是因为OpenAI沿用了之前的开发思路,有足够的成功经验,当谈到视频领域的模型思路时,通常有三种主要的方法:循环网络(RNN)、生成对抗网络(GAN)和扩散模型(Diffusion models)。

循环网络(RNN)

循环神经网络是一类专门用来处理序列数据的神经网络结构。在视频领域,RNN可以被用来捕捉视频帧之间的时间序列信息,从而实现视频内容的分析、生成或者识别。通过循环结构,RNN能够在处理视频数据时考虑到帧与帧之间的时间关系,具有一定的记忆性,因此在一些视频相关的任务中表现得比较出色。

生成对抗网络(GAN)

生成对抗网络是一种包括生成器和判别器两部分的模型框架,在训练过程中通过对抗的方式使得生成器不断提升生成数据的质量,判别器不断提升对真实数据和生成数据的鉴别能力。在视频领域,GAN可以被用来生成逼真的视频内容,或者进行视频内容的修复、增强等任务。通过对抗训练,GAN能够生成高质量的视频内容,具有很大的潜力。

扩散模型(Diffusion models)

扩散模型是一种基于随机过程的生成模型,通过迭代地将噪声信号进行多次扩散来生成数据,并且在训练时采用类似对比散度的损失函数来指导模型学习。在视频领域,扩散模型可以被用来生成具有高质量和多样性的视频内容,同时能够实现对视频内容的精细控制。扩散模型在处理视频数据时表现出色,已经成为视频领域的一个较为成熟和有效的模型思路。

过去一段时间GAN模型很火,但是这个模型就像是脱缰的野马,属于是抽象派艺术家都跟不上思路的那种。所以GAN生成的视频大多数是些"一只小羊跑着跑着变成了四个脑袋十条腿"的鬼畜类视频。而扩散模型相对来说更加可控,生成多样性和训练稳定性都更好。在视频领域已经占据统治地位,因此OpenAI选择扩散模型已经让Sora跟上时代潮流了。但是仅此一点并不足以让OpenAI在一众使用扩散模型的公司中脱颖而出,自家的GPT能遥遥领先靠的是Transformer架构,可用它来处理视频信号时计算成本非常高,高到钱多得当柴烧的OpenAI也扛不住。所以OpenAI用了一个更便宜的技巧 "latent","latent"可以说是一种"压缩",相较于Transformer面面俱到滴水不漏的详细讲解,latent像新闻标题一样能用一句话告诉你大概谁什么时候在哪里干了啥。所以OpenAI特地开发了一个视频压缩网络,把视频先降到latent空间,然后再拿这些压缩过的数据处理,这样就能减小Transformer架构带来的计算量压力。解决了计算量问题还有一个大难题就是这些视频数据如何"Token 化",在GPT里面,Token可以优雅的把代码、数学以及各种不同的自然语言进行统一,从而方便规模巨大的训练,最后大力出奇迹。为了把视频图块进行统一,OpenAI还特地搞了个Patch也能把视频进行大规模训练了。这么一来,Sora就成了OpenAI把文字这领域干成过的事,在视频领域再干了一遍,最后效果正如大家所见也的确不错。OpenAI训练时还找了效果更好的方法,把行业内主流用的把视频截取成预设标准尺寸时长然后再训练,改成了原始尺寸时长训练。这样一来,Sora生成的视频时长尺寸能够自定义,取景构图也能变得更好。OpenAI还有一些其他厂商没有的小优势,比如训练Sora时要用大量含文本说明的视频素材,其他人还在苦恼怎么搞素材的时候,OpenAI直接用自家的DALL·E 3批量给视频素材加上高质量文本描述。另外用户提示词输入后,他们会用自家的GPT进行补充扩写,然后把这个加工过的提示词再给Sora,这也是为啥Sora比其他视频AI更精准更懂人的意思。

总结

从整体来看,你会发现Sora模型的成功并非偶然,它能有如此惊艳的效果,全都得益于OpenAI过去的工作。或许我们可以说,OpenAI自己先成为了一个巨人,然后再站在自己的肩膀上成为了一个新的巨人。相对应的是,无论国内还是国外的其他竞争对手,或许因为文生文,文生图上的技术差,在未来被甩得更远。弯道超车,"差距只有几个月",或许是不存在的,只是自我安慰。

相关推荐
CSDN云计算13 分钟前
如何以开源加速AI企业落地,红帽带来新解法
人工智能·开源·openshift·红帽·instructlab
艾派森23 分钟前
大数据分析案例-基于随机森林算法的智能手机价格预测模型
人工智能·python·随机森林·机器学习·数据挖掘
hairenjing112325 分钟前
在 Android 手机上从SD 卡恢复数据的 6 个有效应用程序
android·人工智能·windows·macos·智能手机
小蜗子30 分钟前
Multi‐modal knowledge graph inference via media convergenceand logic rule
人工智能·知识图谱
SpikeKing42 分钟前
LLM - 使用 LLaMA-Factory 微调大模型 环境配置与训练推理 教程 (1)
人工智能·llm·大语言模型·llama·环境配置·llamafactory·训练框架
黄焖鸡能干四碗1 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
1 小时前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
ctrey_1 小时前
2024-11-4 学习人工智能的Day21 openCV(3)
人工智能·opencv·学习
攻城狮_Dream1 小时前
“探索未来医疗:生成式人工智能在医疗领域的革命性应用“
人工智能·设计·医疗·毕业
学习前端的小z2 小时前
【AIGC】如何通过ChatGPT轻松制作个性化GPTs应用
人工智能·chatgpt·aigc