开创视频新纪元:揭秘OpenAI Sora的魔力

开创视频新纪元:揭秘OpenAI Sora的魔力

theme: serene-rose

假如您也和我一样,在准备春招。欢迎加我微信shunwuyu,这里有几十位一心去大厂的友友可以相互鼓励,分享信息,模拟面试,共读源码,齐刷算法,手撕面经。来吧,友友们!

前言

Sora是16号凌晨发布的,某乎上贩卖教程的文章16号中午出的,这Sora到底有多香?今天我们来聊聊OpenAI的视频模型:Sora。

正文

自打GPT 火了之后人们就对GPT能干什么充满好奇,今天扔段代码,明天甩两个数学题过去,后天又让人家出个旅游计划,在这些方面GPT无疑将大部分任务都做到了让人较为满意的地步,除了视频方面,这款视频AI大模型广受关注主要原因是过去AI生成的视频但要么画面瑕疵多,要么就是时长短得厉害,在Sora你根本找不到一款这样又长又好的产品,我个人认为Sora能说是吊打其他模型主要是因为OpenAI沿用了之前的开发思路,有足够的成功经验,当谈到视频领域的模型思路时,通常有三种主要的方法:循环网络(RNN)、生成对抗网络(GAN)和扩散模型(Diffusion models)。

循环网络(RNN)

循环神经网络是一类专门用来处理序列数据的神经网络结构。在视频领域,RNN可以被用来捕捉视频帧之间的时间序列信息,从而实现视频内容的分析、生成或者识别。通过循环结构,RNN能够在处理视频数据时考虑到帧与帧之间的时间关系,具有一定的记忆性,因此在一些视频相关的任务中表现得比较出色。

生成对抗网络(GAN)

生成对抗网络是一种包括生成器和判别器两部分的模型框架,在训练过程中通过对抗的方式使得生成器不断提升生成数据的质量,判别器不断提升对真实数据和生成数据的鉴别能力。在视频领域,GAN可以被用来生成逼真的视频内容,或者进行视频内容的修复、增强等任务。通过对抗训练,GAN能够生成高质量的视频内容,具有很大的潜力。

扩散模型(Diffusion models)

扩散模型是一种基于随机过程的生成模型,通过迭代地将噪声信号进行多次扩散来生成数据,并且在训练时采用类似对比散度的损失函数来指导模型学习。在视频领域,扩散模型可以被用来生成具有高质量和多样性的视频内容,同时能够实现对视频内容的精细控制。扩散模型在处理视频数据时表现出色,已经成为视频领域的一个较为成熟和有效的模型思路。

过去一段时间GAN模型很火,但是这个模型就像是脱缰的野马,属于是抽象派艺术家都跟不上思路的那种。所以GAN生成的视频大多数是些"一只小羊跑着跑着变成了四个脑袋十条腿"的鬼畜类视频。而扩散模型相对来说更加可控,生成多样性和训练稳定性都更好。在视频领域已经占据统治地位,因此OpenAI选择扩散模型已经让Sora跟上时代潮流了。但是仅此一点并不足以让OpenAI在一众使用扩散模型的公司中脱颖而出,自家的GPT能遥遥领先靠的是Transformer架构,可用它来处理视频信号时计算成本非常高,高到钱多得当柴烧的OpenAI也扛不住。所以OpenAI用了一个更便宜的技巧 "latent","latent"可以说是一种"压缩",相较于Transformer面面俱到滴水不漏的详细讲解,latent像新闻标题一样能用一句话告诉你大概谁什么时候在哪里干了啥。所以OpenAI特地开发了一个视频压缩网络,把视频先降到latent空间,然后再拿这些压缩过的数据处理,这样就能减小Transformer架构带来的计算量压力。解决了计算量问题还有一个大难题就是这些视频数据如何"Token 化",在GPT里面,Token可以优雅的把代码、数学以及各种不同的自然语言进行统一,从而方便规模巨大的训练,最后大力出奇迹。为了把视频图块进行统一,OpenAI还特地搞了个Patch也能把视频进行大规模训练了。这么一来,Sora就成了OpenAI把文字这领域干成过的事,在视频领域再干了一遍,最后效果正如大家所见也的确不错。OpenAI训练时还找了效果更好的方法,把行业内主流用的把视频截取成预设标准尺寸时长然后再训练,改成了原始尺寸时长训练。这样一来,Sora生成的视频时长尺寸能够自定义,取景构图也能变得更好。OpenAI还有一些其他厂商没有的小优势,比如训练Sora时要用大量含文本说明的视频素材,其他人还在苦恼怎么搞素材的时候,OpenAI直接用自家的DALL·E 3批量给视频素材加上高质量文本描述。另外用户提示词输入后,他们会用自家的GPT进行补充扩写,然后把这个加工过的提示词再给Sora,这也是为啥Sora比其他视频AI更精准更懂人的意思。

总结

从整体来看,你会发现Sora模型的成功并非偶然,它能有如此惊艳的效果,全都得益于OpenAI过去的工作。或许我们可以说,OpenAI自己先成为了一个巨人,然后再站在自己的肩膀上成为了一个新的巨人。相对应的是,无论国内还是国外的其他竞争对手,或许因为文生文,文生图上的技术差,在未来被甩得更远。弯道超车,"差距只有几个月",或许是不存在的,只是自我安慰。

相关推荐
春末的南方城市23 分钟前
FLUX的ID保持项目也来了! 字节开源PuLID-FLUX-v0.9.0,开启一致性风格写真新纪元!
人工智能·计算机视觉·stable diffusion·aigc·图像生成
zmjia11125 分钟前
AI大语言模型进阶应用及模型优化、本地化部署、从0-1搭建、智能体构建技术
人工智能·语言模型·自然语言处理
jndingxin39 分钟前
OpenCV视频I/O(14)创建和写入视频文件的类:VideoWriter介绍
人工智能·opencv·音视频
AI完全体1 小时前
【AI知识点】偏差-方差权衡(Bias-Variance Tradeoff)
人工智能·深度学习·神经网络·机器学习·过拟合·模型复杂度·偏差-方差
GZ_TOGOGO1 小时前
【2024最新】华为HCIE认证考试流程
大数据·人工智能·网络协议·网络安全·华为
sp_fyf_20241 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02
人工智能·神经网络·算法·计算机视觉·语言模型·自然语言处理·数据挖掘
新缸中之脑1 小时前
Ollama 运行视觉语言模型LLaVA
人工智能·语言模型·自然语言处理
胡耀超2 小时前
知识图谱入门——3:工具分类与对比(知识建模工具:Protégé、 知识抽取工具:DeepDive、知识存储工具:Neo4j)
人工智能·知识图谱
陈苏同学2 小时前
4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1
linux·服务器·ide·人工智能·python·深度学习·pycharm
吾名招财2 小时前
yolov5-7.0模型DNN加载函数及参数详解(重要)
c++·人工智能·yolo·dnn