开创视频新纪元:揭秘OpenAI Sora的魔力

开创视频新纪元:揭秘OpenAI Sora的魔力

theme: serene-rose

假如您也和我一样,在准备春招。欢迎加我微信shunwuyu,这里有几十位一心去大厂的友友可以相互鼓励,分享信息,模拟面试,共读源码,齐刷算法,手撕面经。来吧,友友们!

前言

Sora是16号凌晨发布的,某乎上贩卖教程的文章16号中午出的,这Sora到底有多香?今天我们来聊聊OpenAI的视频模型:Sora。

正文

自打GPT 火了之后人们就对GPT能干什么充满好奇,今天扔段代码,明天甩两个数学题过去,后天又让人家出个旅游计划,在这些方面GPT无疑将大部分任务都做到了让人较为满意的地步,除了视频方面,这款视频AI大模型广受关注主要原因是过去AI生成的视频但要么画面瑕疵多,要么就是时长短得厉害,在Sora你根本找不到一款这样又长又好的产品,我个人认为Sora能说是吊打其他模型主要是因为OpenAI沿用了之前的开发思路,有足够的成功经验,当谈到视频领域的模型思路时,通常有三种主要的方法:循环网络(RNN)、生成对抗网络(GAN)和扩散模型(Diffusion models)。

循环网络(RNN)

循环神经网络是一类专门用来处理序列数据的神经网络结构。在视频领域,RNN可以被用来捕捉视频帧之间的时间序列信息,从而实现视频内容的分析、生成或者识别。通过循环结构,RNN能够在处理视频数据时考虑到帧与帧之间的时间关系,具有一定的记忆性,因此在一些视频相关的任务中表现得比较出色。

生成对抗网络(GAN)

生成对抗网络是一种包括生成器和判别器两部分的模型框架,在训练过程中通过对抗的方式使得生成器不断提升生成数据的质量,判别器不断提升对真实数据和生成数据的鉴别能力。在视频领域,GAN可以被用来生成逼真的视频内容,或者进行视频内容的修复、增强等任务。通过对抗训练,GAN能够生成高质量的视频内容,具有很大的潜力。

扩散模型(Diffusion models)

扩散模型是一种基于随机过程的生成模型,通过迭代地将噪声信号进行多次扩散来生成数据,并且在训练时采用类似对比散度的损失函数来指导模型学习。在视频领域,扩散模型可以被用来生成具有高质量和多样性的视频内容,同时能够实现对视频内容的精细控制。扩散模型在处理视频数据时表现出色,已经成为视频领域的一个较为成熟和有效的模型思路。

过去一段时间GAN模型很火,但是这个模型就像是脱缰的野马,属于是抽象派艺术家都跟不上思路的那种。所以GAN生成的视频大多数是些"一只小羊跑着跑着变成了四个脑袋十条腿"的鬼畜类视频。而扩散模型相对来说更加可控,生成多样性和训练稳定性都更好。在视频领域已经占据统治地位,因此OpenAI选择扩散模型已经让Sora跟上时代潮流了。但是仅此一点并不足以让OpenAI在一众使用扩散模型的公司中脱颖而出,自家的GPT能遥遥领先靠的是Transformer架构,可用它来处理视频信号时计算成本非常高,高到钱多得当柴烧的OpenAI也扛不住。所以OpenAI用了一个更便宜的技巧 "latent","latent"可以说是一种"压缩",相较于Transformer面面俱到滴水不漏的详细讲解,latent像新闻标题一样能用一句话告诉你大概谁什么时候在哪里干了啥。所以OpenAI特地开发了一个视频压缩网络,把视频先降到latent空间,然后再拿这些压缩过的数据处理,这样就能减小Transformer架构带来的计算量压力。解决了计算量问题还有一个大难题就是这些视频数据如何"Token 化",在GPT里面,Token可以优雅的把代码、数学以及各种不同的自然语言进行统一,从而方便规模巨大的训练,最后大力出奇迹。为了把视频图块进行统一,OpenAI还特地搞了个Patch也能把视频进行大规模训练了。这么一来,Sora就成了OpenAI把文字这领域干成过的事,在视频领域再干了一遍,最后效果正如大家所见也的确不错。OpenAI训练时还找了效果更好的方法,把行业内主流用的把视频截取成预设标准尺寸时长然后再训练,改成了原始尺寸时长训练。这样一来,Sora生成的视频时长尺寸能够自定义,取景构图也能变得更好。OpenAI还有一些其他厂商没有的小优势,比如训练Sora时要用大量含文本说明的视频素材,其他人还在苦恼怎么搞素材的时候,OpenAI直接用自家的DALL·E 3批量给视频素材加上高质量文本描述。另外用户提示词输入后,他们会用自家的GPT进行补充扩写,然后把这个加工过的提示词再给Sora,这也是为啥Sora比其他视频AI更精准更懂人的意思。

总结

从整体来看,你会发现Sora模型的成功并非偶然,它能有如此惊艳的效果,全都得益于OpenAI过去的工作。或许我们可以说,OpenAI自己先成为了一个巨人,然后再站在自己的肩膀上成为了一个新的巨人。相对应的是,无论国内还是国外的其他竞争对手,或许因为文生文,文生图上的技术差,在未来被甩得更远。弯道超车,"差距只有几个月",或许是不存在的,只是自我安慰。

相关推荐
余炜yw21 分钟前
【LSTM实战】跨越千年,赋诗成文:用LSTM重现唐诗的韵律与情感
人工智能·rnn·深度学习
莫叫石榴姐38 分钟前
数据科学与SQL:组距分组分析 | 区间分布问题
大数据·人工智能·sql·深度学习·算法·机器学习·数据挖掘
如若1231 小时前
利用 `OpenCV` 和 `Matplotlib` 库进行图像读取、颜色空间转换、掩膜创建、颜色替换
人工智能·opencv·matplotlib
YRr YRr1 小时前
深度学习:神经网络中的损失函数的使用
人工智能·深度学习·神经网络
ChaseDreamRunner1 小时前
迁移学习理论与应用
人工智能·机器学习·迁移学习
Guofu_Liao1 小时前
大语言模型---梯度的简单介绍;梯度的定义;梯度计算的方法
人工智能·语言模型·矩阵·llama
我爱学Python!1 小时前
大语言模型与图结构的融合: 推荐系统中的新兴范式
人工智能·语言模型·自然语言处理·langchain·llm·大语言模型·推荐系统
果冻人工智能1 小时前
OpenAI 是怎么“压力测试”大型语言模型的?
人工智能·语言模型·压力测试
日出等日落2 小时前
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
人工智能·语言模型·自然语言处理
麦麦大数据2 小时前
Python棉花病虫害图谱系统CNN识别+AI问答知识neo4j vue+flask深度学习神经网络可视化
人工智能·python·深度学习